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本 书 是 第 一 本 全 面 阐述 如 何 构建 健壮 和 准确 的 多 语 自然 语言 处 理 系统 的 图 书 ， 由 两 位 资深 专家 
编辑 ， 集 合 了 该 领域 众多 尖端 进展 以 及 从 广泛 的 研究 和 产业 实践 中 总 结 出 的 实用 解决 方案 。 

第 一 部 分 介绍 现代 自然 语言 处 理 的 核心 概念 和 理论 基础 ， 展 示 了 如 何 理解 单词 和 文档 结构 、 分 
析 语 法 、 建 模 语言 、 识 别 蕴 涵 和 检测 元 余 。 第 二 部 分 彻底 阐述 与 构建 真实 应 用 有 关 的 实际 考量 ， 包 
括 信息 抽取 、 机 器 翻译 、 信 息 检索 、 文 摘 、 问 答 、 提 炼 、 处 理 流水 线 等 。 
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文艺 复兴 以 来 ,源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领 
域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 
风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北 
斗 同时 号 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 
学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 上 日益 人 迫切。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技 术 发 展 时 间 较 得 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 和 发 
展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事 
业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工作 重 
态 放 在 了 以 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, McGraw-Hill, 
Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 
现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, Den- 
nis Ritchie, Jim Gray，Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silbers- 
chatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 
批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 
也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 的 选 
题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 
有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书籍 在 
读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ” 
作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 书 有 
了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 
国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 
我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 
我 们 的 联系 方法 如 下 : 


华章 网 站 ; www. hzbook. com 

电子 邮件 : hzjsij@ hzbook. com 

联系 电话 : (010) 88379604 

联系 地 址 ; 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 ; 100037 
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Multilingual Natural Language Processing Applications: From Theory to Practice 


本 书 对 自然 语言 处 理 的 多 语言 相关 现象 做 了 深入 的 研究 ， 内 容 丰 富 ， 引 用 了 很 多 最 新 的 文献 。 
对 广大 的 自然 语言 处 理 研究 者 和 开发 者 来 说 ， 这 是 一 本 非常 好 的 参考 书 。 

全 书 分 为 理论 和 实践 两 部 分 。 理 论 部 分 有 7 章 ， 实 践 部 分 有 9 章 ， 各 章 可 单独 阅读 。 下 面 对 各 
章 内 容 进 行 简 要 评述 ， 以 供 读者 参考 。 

第 1 章 主 要 讨论 形态 学 ， 重 点 关注 阿拉 伯 语 等 屈折 语 的 形态 处 理 。 该 章 提 到 了 汉语 的 分 词 问题 ， 
但 是 没有 任何 描述 ， 另 外 还 讨论 了 很 有 意思 的 形态 归纳 问题 。 

第 2 章 主要 讨论 文档 结构 ， 包 括 句子 边界 检测 、 话 题 边 界 检 查 ， 主 要 讨论 了 基于 特征 的 机 器 学 
习 方 法 ， 对 语音 的 分 割 也 进行 了 讨论 。 

第 3 章 讨 论 了 句法 分 析 ， 涉 及 的 内 容 丰 富 而 具体 。 

第 4 章 讨 论 了 语义 分 析 ， 是 本 书 篇 幅 最 大 的 一 章 ， 内 容 非 常 详尽 ， 从 各 类 语义 问题 描述 、 资 源 、 
方法 到 具体 系统 ， 应 有 尽 有 。 

第 5 章 讨论 了 语言 模型 ， 介 绍 各 种 先进 的 语言 模型 ， 有 很 多 最 新 的 内 容 和 文献 可 供 读者 参考 ， 
阅读 该 章 需 在 理解 了 元 模型 的 基础 上 进行 ，。 

第 6 章 讨论 了 文本 蕴涵 识别 ， 提 出 了 一 个 文本 蕴涵 框架 ,介绍 了 各 类 文本 蕴涵 算法 和 系统 及 其 
性 能 评测 ， 提 供 了 很 多 相关 资源 。 

第 7 章 讨 论 了 情感 和 主观 性 分 析 ， 强 调 了 擎 入 (bootstrapping) 方法 的 使 用 (特别 是 跨 语言 
衍 )。 

第 8 章 讨 论 了 提 及 检测 和 共 指 消解 ， 这 是 两 个 信息 抽取 中 的 基本 问题 。 该 章 写 得 非常 简明 扼要 ， 
而 且 提 供 了 一 种 实现 。 

第 9 章 讨论 了 关系 抽取 和 事件 抽取 ， 也 属于 信息 抽取 的 范畴 。 该 章 探 讨 了 机 器 学 习 的 方法 ， 并 
提倡 将 实体 检测 和 关系 抽取 结合 在 一 个 模型 里 。 

第 10 章 讨论 了 机 顺 翻 译 及 其 现状 、 评 测 与 各 种 模型 。 

第 11 章 讨论 了 信息 检索 ， 内 容 翔实 ， 特 别 区 分 了 跨 语 言 信息 检索 和 多 语言 信息 检索 。 

第 12 章 讨论 了 自动 文摘 ， 对 其 历史 、 方 法 、 评 测 、 系 统 构 造 、 工 具 、 多 语 问题 都 有 细致 的 描 
述 。 自 动 文摘 也 可 以 看 作 是 信息 抽取 问题 

第 13 章 讨 论 了 问答 系统 ， 对 涉及 的 实现 技术 和 相关 算法 都 进行 了 详细 的 描述 。 问 答 系统 也 可 以 
看 作 是 高 级 的 信息 抽取 。 

第 14 章 讨论 了 提炼 ， 这 是 介 于 信息 检索 和 问答 系统 的 一 类 新 兴 问 题 ， 需 要 融合 多 个 信息 源 的 
知识 。 

第 15 章 讨论 了 口语 对 话 系统 ， 包 括 其 体系 结构 、 技 术 和 方法 ,以 及 实现 中 的 一 些 问题 。 

第 16 章 讨论 了 自然 语言 处 理 的 多 引擎 聚合 ， 包 括 其 常见 的 体系 结构 ， 并 在 GALE 项 目 背 景 下 讨 
论 了 一 个 详细 案例 。 ! 

虽然 本 书 的 目的 之 一 是 在 基础 知识 方面 尽量 完整 ， 读 者 不 需要 为 了 自然 语言 处 理 基本 任务 去 看 
很 多 书 ， 但 是 ， 对 于 已 经 有 自然 语言 处 理 基 础 的 读者 而 言 ， 本 书 提供 了 很 多 最 新 的 研究 内 容 ， 其 参 
考 文献 和 提供 的 大 量 可 下 载 资源 的 链接 非常 有 价值 ， 省 去 了 读者 很 多 宝贵 的 时 间 。 对 上 自然 语言 处 理 
系统 的 研发 者 ， 特 别 是 信息 抽取 和 信息 检索 相关 的 开发 者 ， 本 书 是 非常 好 的 参考 。 

译 者 在 翻译 时 全 书 尽 量 采 用 统一 的 术语 ， 并 且 采 用 浅显 的 译 法 来 帮助 读者 理解 。 然 而 语言 学 和 


自然 语言 处 理 方面 的 术语 迄今 还 有 很 多 不 如 意 之 处 ， 因 此 可 能 仍然 不 能 使 读者 看 其 言 而 知 其 义 。 

本 书 由 多 人 翻译 ， 基 本 上 每 人 一 章 。 翻 译 人 员 按 照章 节 顺 序 分 别 为 史 晓 东 、 谭 波 、 徐 伟 、 陈 坑 
东 (其 中 黄 哲 煌 翻译 了 4.5.2 节 )、 黄 研 洲 、 林 达 真 、 苏 劲松 、 胡 金 铬 、 何 中 豪 、 邬 昌 兴 、 方 瑞 玉 、 
罗 凌 、 崔 志 健 和 方 瑞 玉 、 甘 星 超 、 王 晓 苏 、 曹 茂 元 。 校 对 工作 也 由 史 晓 东 、 陈 毅 东 、 谭 波 等 多 人 参 
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看 起 来 几乎 每 个 人 都 在 一 定 程度 上 受到 了 信息 技术 的 发 展 和 互联 网 繁荣 的 影响 。 近 来 ， 多 媒体 
信息 源 变 得 日 益 普 及 。 不 过 ， 未 加 工 的 自然 语言 文本 的 总 量 在 不 断 增长 ， 并 且 地 球 上 各 种 主要 语言 
都 在 不 断 产生 大 量 未 处 理 文 本 。 例 如 ， 英 语 维基 百科 报导 已 有 101 种 语言 的 维基 百科 ， 而 每 种 语言 
至 少 有 10 000 篇 文章 。 因 此 ， 不管 是 国家 、 公 司 ， 还 是 个 人 ， 都 迫切 需要 来 分 析 、 翻 译 、 综 合 或 者 
提炼 这 些 海量 文本 。 

以 前 ， 要 开发 鲁 棒 、 精 确 的 多 语 自然 语言 处 理 (Natural Language Processing, NLP) 应 用 ， 研 
究 者 或 者 开发 人 员 需 要 查阅 若干 本 参考 书 、 几 十 个 期 刊 或 者 会 议论 文 。 本 书 旨 在 为 开发 此 类 应 用 提 
供 所 需 的 所 有 背景 知识 和 实际 建议 。 虽 然 这 个 要 求 很 高 ， 但 我 们 希望 本 书 至 少 是 本 有 用 的 参考 书 。 

过 去 20 年 来 ， 上 自然 语言 研究 者 开发 了 可 处 理 多 种 语言 的 大 量 文本 的 若干 优秀 算法 。 迄 今 为 止 ， 
主流 的 方法 是 建立 可 从 实例 中 学 习 的 统计 模型 。 这 样 的 模型 能 鲁 棒 地 应 对 其 处 理 文本 的 类 型 甚至 语 
言 的 变化 。 如 果 设 计 适 当 ， 同 样 的 模型 可 用 于 新 的 领域 或 新 的 语言 ， 只 需要 提供 相应 领域 或 语言 
新 的 训练 实例 。 这 种 方法 也 使 得 研究 者 没有 必要 辛苦 地 写 出 处 理 问 题 的 所 有 规则 以 及 这 些 规则 联合 
使 用 的 方式 。 统 计 系 统一 般 只 要 研究 者 提供 可 能 的 输入 特征 的 抽象 表示 ， 其 相对 重要 性 可 在 训练 
(training) 阶段 学 习 而 得 ， 并 在 解码 (decoding) 或 者 推理 (inference) 阶段 应 用 于 新 的 文本 。 

统计 自然 语言 处 理 领域 在 快速 变化 ， 部 分 变化 源 于 其 快速 发 展 。 例 如 ， 该 领域 的 主要 会 议 之 一 
是 计算 语言 学 年 会 ， 其 参 会 人 数 在 过 去 五 年 已 经 翻番 。 另 外 ，IEEE 语音 和 语言 处 理会 议和 期 刊 上 自 
然 语 言 处 理 的 文章 数目 也 在 过 去 十 年 中 翻 了 一 番 以 上 。IEEE 是 世界 上 推进 技术 发 展 的 最 大 的 专业 学 
会 之 一 。 自 然 语言 处 理 研究 者 不 但 在 解决 本 领域 的 问题 上 取得 了 内 在 的 进步 ,也 从 机 颖 学 习 和 语言 
学 领域 的 进展 中 借鉴 良 多 。 本 书 虽 注意 先进 的 算法 和 技术 ， 但 主要 目的 是 对 该 领域 的 最 佳 实践 进行 
详尽 的 阐明 。 另 外 ， 每 章 会 描述 所 述 方法 在 多 语 (multilingual) 环境 下 的 适用 性 。 

本 书 分 成 两 部 分 。 第 一 部 分 是 理论 ， 包 括 前 七 章 ， 展 示 了 自然 语言 处 理 的 各 种 基础 问题 以 及 解 
决 这 些 问题 的 算法 。 头 三 章 关注 的 是 找 出 各 种 不 同 粒度 层次 的 语言 结构 。 第 1 章 引 入 了 一 个 重要 概 
念 形态 学 (morphology) ， 研 究 词 的 结构 ， 以 及 世界 上 各 种 语言 的 不 同形 态 现象 的 处 理 方法 。 第 
2 章 讨论 了 多 种 方法 ， 文 档 可 由 此 分 解 为 更 易 处 理 的 部 分 ， 如 句子 ， 以 及 通过 主题 联系 的 更 大 的 单 
位 。 第 3 章 研究 了 发 现 句 子 内 部 结构 的 方法 ， 也 即 句 法 (syntax) 。 句 法 一 直 都 是 语言 学 最 重要 的 研 
究 领 域 ， 这 种 重要 性 也 反映 在 自然 语言 处 理 领 域 。 说 其 重要 ， 部 分 原因 是 句子 的 结构 和 句子 的 意义 
相关 ， 所 以 找 出 句法 结构 是 理解 句子 的 第 一 步 。 

找 出 句子 或 者 其 他 文本 单位 的 结构 化 的 意义 表示 ， 经 常 称 作 语 义 分 析 (semantic parsing)， 这 是 
第 4 章 的 内 容 。 第 4 章 还 特别 讨论 了 近年 来 引起 诸多 关注 的 语义 角色 标注 (semantic role labeling) 
问题 ， 其 目的 是 找 出 可 作为 动词 或 谓词 的 论 元 的 句法 短语 。 对 动词 的 论 元 进行 了 识别 和 分 类 ， 我 们 
离 生 成 句子 的 有 逻辑 形式 (logical form) 又 靠近 了 一 步 ， 而 逻辑 形式 是 句子 意义 的 一 种 表示 ， 这 种 表 
示 方 式 容 易 被 机 器 处 理 ， 而 用 于 处 理 逻 辑 的 多 种 工具 人 类 上 自古 代 就 开始 研究 了 。 

然而 ， 如 果 我 们 不 需要 语义 分 析 生成 的 深层 句法 语义 结构 呢 ? 如 果 我 们 的 问题 只 是 确定 多 个 句 
子 中 哪个 句子 是 人 最 可 能 写 或 者 说 的 呢 ? 解决 此 问题 的 一 种 方法 是 开发 一 个 可 根据 语法 合法 性 而 为 
句子 打分 的 模型 并 以 此 选取 分 值 最 高 的 句子 。 给 出 一 个 词 串 的 分 值 或 概率 估计 的 问题 称 为 语言 模型 
(language modeling)， 这 是 第 5 章 的 主题 。 

表示 意义 和 判断 句子 的 语法 合法 性 只 是 处 理 语 言 前 期 步骤 中 的 两 种 。 为 了 进一步 理解 意义 ， 我 





们 需要 一 个 算法 ， 该 算法 可 对 一 段 文 本 中 表示 的 事实 进行 推理 。 例 如 ， 我 们 想 要 知道 一 个 句子 中 提 
到 的 事实 是 否 被 文档 中 前 面 的 某 个 句子 所 蕴涵 ， 这 种 推理 被 称 为 识别 文本 蕴涵 (recognizing textual 
entailment) ， 这 是 第 6 章 的 主题 。 

找 出 陈述 或 事实 的 相互 蕴涵 显然 对 文本 自动 理解 很 重要 ,但 是 这 些 陈述 的 性 质 也 有 待考 究 。 理 
解 一 个 陈述 是 否 是 主观 的 ， 并 找 出 其 表述 的 意见 的 倾向 性 是 第 7 章 的 主题 。 由 于 人 们 经 常 表达 意见 ， 
这 显然 是 一 个 重要 的 问题 ， 尤 其 在 社交 网 络 已 经 成 为 互联 网 上 人 际 交流 的 最 重要 形式 的 时 代 ， 这 一 
点 更 显 重 要 。 本 书 第 一 部 分 以 本 章 作 结 。 

本 书 第 二 部 分 是 实践 ， 讲 述 如 何 将 第 一 部 分 描述 的 自然 语言 处 理 基 础 技术 应 用 于 现实 世界 中 的 
问题 。 应 用 开发 经 常 要 做 权衡 ， 如 时 间 和 空间 的 权衡 ， 因 此 本 书 应 用 部 分 的 章节 探讨 了 在 构建 一 个 
鲁 棒 的 多 语 目 然 语 言 处 理应 用 时 ， 如 何 进 行 各 种 算法 和 设计 决策 的 权衡 。 

第 8 章 描述 识别 和 区 分 命名 实体 (named entity) 以 及 这 些 实体 在 文本 中 提 及 的 办 法 ， 也 描述 了 
识别 两 个 以 上 的 实体 提 及 共 指 (corefer) 的 方法 。 这 两 个 问题 一 般 称 为 提 及 检测 (mention detec- 
tion) 和 上 共 指 消解 (coreference resolution) ， 它 们 是 一 个 更 大 的 应 用 领域 信息 抽取 (information 
extraction) 的 两 个 核心 部 分 。 

第 9 章 继续 信息 抽取 的 讨论 ， 探 索 找 出 两 个 实体 如 何 发 生 关系 的 技术 ， 也 称 为 关系 抽取 Crela- 
tion extraction) 。 要 识别 事件 ， 并 对 此 进行 分 类 ， 称 为 事件 抽取 (event extraction), WI}, BAY 
及 多 个 实体 ， 我 们 和 希望 机 器 能 找 出 事件 的 参与 者 及 其 所 起 的 作用 。 因 此 ， 事 件 抽取 与 自然 语言 处 理 
中 的 一 个 关键 问题 “语义 角色 标注 ”紧密 相关 。 

第 10 章 描述 自然 语言 处 理 领域 中 最 古老 的 问题 之 一 ， 这 本 质 上 也 是 一 个 多 语 上 自然 语言 处 理 问 
Hi. 机 器 翻译 (Machine Translation，MT) 。 从 一 种 语言 翻译 为 另外 一 种 语言 ， 一 直 是 NLP 研究 追 
求 的 目标 。 在 学 术 界 几 十 年 的 努力 之 后 ， 近 年 来 已 经 研究 出 多 种 方法 ， 在 现存 的 硬件 条 件 下 可 以 进 
行 实用 的 机 器 翻译 了 。 

翻译 文本 是 一 回 事 ， 但 是 我 们 如 何 理解 现存 的 海量 文本 呢 ? 98 8. 9 章 对 帮助 我 们 自动 产生 文本 
中 信息 的 结构 化 记录 进行 了 一 些 探索 。 解 决 海量 问题 的 另 一 个 办 法 是 通过 查找 与 某 个 搜索 查询 相关 
的 少量 文档 或 者 文档 的 一 部 分 来 缩小 范围 。 该 问题 称 为 信息 检索 (information retrieval) ， 这 是 第 11 
章 的 主题 。 像 Google 一 样 的 商用 搜索 引擎 在 很 多 方面 可 看 作 大 规模 的 信息 检索 系统 。 由 于 搜索 引擎 
非常 流行 ， 因 此 这 是 个 很 重要 的 NLP 问题 一 一 考虑 到 有 大 量 语 料 是 非 公开 的 ， 从 而 不 能 被 商业 引擎 
搜索 到 ， 所 以 信息 检索 越发 重要 。 

处 理 大 量 文本 的 另 一 个 办 法 是 自动 文摘 ， 这 是 第 12 章 的 主题 。 摘 要 很 困难 ， 一 般 有 两 种 做 法 : 
找到 若干 个 句子 或 句子 片段 来 表示 文本 的 大 意 ; 理解 文本 ， 将 其 意义 进行 某 种 内 部 表示 ， 然 后 生成 
摘要 ， 与 人 为 的 操作 一 样 。 

人 们 经 常 倾向 于 使 用 机 器 自动 处 理 文 本 ， 因 为 他 们 有 很 多 问题 要 找到 答案 。 这 些 问题 可 以 是 简 
单 的 事实 性 问题 ， 如 “约翰 ， 肯尼迪 何 时 出 生 ”， 也 可 以 是 复杂 的 问题 ， 如 “德国 巴伐利亚 的 最 大 城 
TEA”. $ 13 章 讨 论 如 何 建造 自动 回答 这 类 问题 的 系统 。 

如 我 们 想 回 答 的 问题 还 更 复杂 那 该 怎么 办 ? 我 们 的 查询 可 能 有 多 个 答案 ， 如 “ 找 出 奥巴马 总 统 
在 2010 年 会 见 的 外 国政 府 首脑 ”。 这 类 查询 可 由 在 NLP 中 被 称 为 提炼 distillation) 的 一 门 较 新 的 
子 学 科 处 理 。 提 炼 需要 真正 地 把 信息 检索 和 信息 抽取 技术 结合 起 来 ， 同 时 还 要 增加 自己 的 技术 。 

在 许多 情形 下 ， 我们 希望 机 器 能 利用 语音 识别 和 合成 技术 交互 式 地 处 理 语言 。 这 样 的 系统 称 为 
对 话 系 统 (dialog system), RABI 章 讨论 。 由 于 在 语音 识别 、 对 话 管理 和 语音 合成 方面 的 技术 进 
展 ， 对 话 系 统 越 来 越 实 用 ， 并 且 已 经 在 实际 场合 中 广泛 安装 使 用 。 

最 后 ， 我 们 作为 NLP 研究 者 和 工程 师 ， 和 希望 用 世界 上 开发 的 大 量 不 同 的 部 件 来 构造 系统 。 这 种 





处 理 引 擎 的 聚合 在 第 16 章 介绍 。 虽 然 这 是 本 书 的 最 后 一 章 ， 但 从 某 种 意义 上 来 讲 这 代表 处 理 文本 的 
开始 而 非 结 尾 ， 因 为 该 章 描 述 了 一 个 通用 的 架构 ， 可 用 来 生成 不 同 组 合 的 一 系列 处 理 流水 单元 。 

我 们 希望 本 书 是 自足 的 ， 同 样 希望 读者 将 其 作为 学 习 的 开始 而 不 是 结束 。 每 章 都 有 大 量 参 考 文 
献 ， 读 者 可 以 用 来 继续 深入 研究 任何 话题 。NLP 的 研究 队伍 在 全 世界 越 来 越 壮大 ,我 们 希望 你 加 入 
我 们 的 行列 ， 一 起 进行 自动 文本 处 理 的 激动 人 心 的 探索 。 你 可 以 在 大 学 、 研 究 所 、 会 议 、 博 客 甚至 
社交 网 络 上 和 我 们 一 起 交流 。 多 语 上 自然 语言 处 理 系 统 的 未 来 是 十 分 光明 的 ， 我 们 期 待 你 的 贡献 ! 
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Al EMNLP 会 议程 序 委员 。 他 还 在 一 流 的 会 议和 杂志 上 发 表 了 大 量 同行 评 





审 的 论文 ， 并 开发 了 在 目 然 语 言 处理 界 广泛 使 用 的 软件 工具 。 在 2008 年 的 “ACL-08: HLT” 会 议 
上 获得 了 最 佳 论文 奖 〈 出 色 短 文 ) 2010 年 以 来 ，Bikel 博士 一 直 在 Google 从 事 自 然 语言 处 理 和 语音 
处 理 研 究 。 


Imed Zitouni Cizitouni(2 us. ibm. com) 2004 年 迄今 是 IBM 的 高 级 研究 
员 。 他 分 别 于 1996 年 和 2000 年 从 法 国 南 锡 大 学 荣誉 毕业 并 且 获 得 计算 机 
科学 硕士 和 博士 学 位 。 他 于 1995 年 获得 突尼斯 一 家 著名 的 国家 计算 机 学 院 
(Ecole Nationale des Sciences de l'Informatique) 的 工程 硕士 学 位 。 

在 加 入 IBM 前 ， 他 在 1999 年 和 2000 年 是 一 家 初创 公司 DIALOCA 的 首 
席 科 学 家 。2000 一 2004 年 ， 他 作为 研究 人 员 加 入 了 Lucent-Alcatel 贝尔 实验 
室 。 他 的 研究 兴趣 包括 自然 语言 处 理 、 语 言 模型 、 口 语 对 话 系 统 、 语 音 识 别 
和 机 器 学 习 。Zitouni 博士 是 2009~ 2011 年 IEEE 语音 和 语言 技术 委员 会 委 
li. 他 是 《ACM Transactions on Asian Language Information Processing) 的 副 
主编 ， 计 算 语 言 协会 (Association for Computational Linguisticss，ACL) 闪 米 特 语 计算 方法 特别 兴趣 组 
的 信息 官 。 他 是 IEEE 高 级 会 员 、ISCA 和 ACL 会 员 ， 在 多 个 同行 评审 会 议和 杂志 担任 程序 委员 和 主 
席 。 他 在 自己 的 研究 领域 内 拥有 数 个 专利 ， 在 同行 评审 的 会 议和 杂志 上 发 表 了 70 多 篇 论文 。 


Carmen Banea (carmen. banea@gmail. com) 是 北 得 克 萨 斯 大 学 计算 
机 科学 和 工程 系 的 博士 生 。 她 的 研究 领域 是 自然 语言 处 理 。 她 的 研究 工 
作 和 集中 于 多 语 主 观 性 和 情感 分 析 ， 她 开发 了 基于 词典 和 基于 语料库 的 方 
法 ， 利 用 资源 丰富 的 语言 来 建立 其 他 语言 的 工具 和 数据 。Carmen 在 主 
流 的 自然 语言 处 理会 议 上 发 表 了 多 篇 论文 ， 会 议 包 括 ACL, EMNLP 
( Empirical Methods in Natural Language Processing) , ICCL (International 
Conference on Computational Linguistics) 等 。 她 在 多 个 大 型 会 议 上 担任 
程序 委员 ， 也 是 《计算 语言 学 》 杂 志和 《自然 语言 工程 》 杂 志 的 审 稿 
A. 她 在 与 ACL 2010 共同 召开 的 TextGraphs 2010 Workshop 上 担任 共 
同 主席 ， 也 是 2009 一 2011 年 北美 计算 语言 学 奥林匹克 赛 的 北 得 克 萨 斯 大 学 站 的 组 织 者 之 一 。 


Vittorio Castelli (vittorio@ us. ibm. com) 1988 年 毕业 于 米兰 理工 大 学 ， 获 得 电子 工程 学 士 学 
位 ， 并 于 1990 年 、1994 年 和 1995 年 分 别 获 得 电子 工程 硕士 学 位 、 统 计 学 硕士 学 位 和 电子 工程 博 








士 学 位 。 其 中 博士 学 位 的 论文 是 关于 信息 论 和 统计 分 类 的 研究 。1995 年 
他 加 盟 IBM T. J. Watson Research Center。 最 近 他 的 研究 方向 是 自然 语言 
处 理 ， 特 别 是 信息 抽取 领域 。 他 致力 于 研究 DARPA GALE 和 机 器 阅读 项 
A. Vittorio 在 此 之 前 启动 了 Personal Wizards 项 目 ， 该 项 目的 目标 是 通过 
观察 专家 执行 任务 的 过 程 来 捕 提 执行 流程 知识 。 他 已 经 完成 的 工作 涉及 信 
息 论 、 内 存 压 缩 、 时 间 序 列 预测 和 索引 、 性 能 分 析 ， 提 出 了 对 计算 机 系统 
的 可 靠 性 和 服务 性 能 与 科学 图 形 数字 库 的 改进 方法 。1996 一 1998 年 ， 他 是 
编号 为 NCC5-101 fy NASA/CAN 项 目的 共同 研究 人 员 。 他 主要 的 研究 兴趣 
包含 信息 论 、 概 率 论 、 统计 和 统计 模式 识别 。1998 一 2005 年 ， 他 是 哥 伦 比 
亚 大 学 的 助理 教授 ， 讲 授信 息 论 和 统计 模式 识别 。 他 是 IEEE IT Society 的 Sigma Xi 成 员 ， 也 是 美国 
统计 协会 的 成 员 Vittorio 发 表 的 论文 涉及 自然 语言 处 理 、 计 算 机 辅助 教学 、 统 计 分 类 、 数 据 压 缩 、 
图 像 处 理 、 多 媒体 数据 库 、 数 据 库 挖掘 、 多 维度 索引 结构 、 智 能 用 户 接口 以 及 信息 论 的 根本 问题 ， 
并 共同 编辑 了 (Image Databases: Search and Retrieval of Digital Imagery) (Wiley, 2002), 





Jenifer Chu-Carroll (jencc@ us. ibm. com) 是 IBM T. J. Watson Research 
Center 语义 分 析 与 集成 部 门 的 研究 人 员 。 她 于 2001 年 加 盟 IBM, FES 
前 ， 她 以 技术 人 员 的 身份 在 Lucent Technologies 贝尔 实验 室 工作 了 五 年 。 
她 的 研究 兴趣 包含 问答 、 语 义 搜索 、 会 话 处 理 和 口语 对 话 管理 。 


Philipp Cimiano (cimiano @ cit-ec. uni-bielefeld. 
de) 是 德国 比 勒 费 尔 德 大 学 的 计算 机 科学 教授 。 
他 领导 的 Semantic Computing Group 隶属 于 Cog- 
nitive Interaction Technology Excellence Center, 
该 中 心 在 卓越 创新 体系 下 由 德国 研究 基金 会 
(Deutsche Forschungsgemeinschaf) 资助 。Philipp Cimiano 在 斯 图 加 特大 学 
的 主攻 专业 是 计算 机 科学 ， 辅 修 专 业 是 计算 语言 学 。 他 在 卡尔 斯 鲁 厄 大 学 
获得 了 博士 学 位 (最 高 讲 奖 )。 他 主要 的 研究 兴趣 在 于 如 何 将 语义 技术 与 
自然 语言 相 结合 。 在 过 去 的 几 年 里 ， 他 致力 于 多 语言 信息 的 访问 的 研究 。 
他 作为 主要 研究 人 员 参 加 了 许多 欧洲 研究 项 目 (Dot. Kom, X-Media, Monnet) 和 国际 研究 项 目 ， 例 
如 SmartWeb (BMBF) 和 Multipla (DFG). 





Benoit Favre (benoit. favre(2 lif. univ-mrs. fr) 是 位 于 法 国 马 赛 的 艾 克 
斯 -马赛 大 学 的 副教授 。 他 的 研究 领域 是 自然 语言 理解 。 他 的 研究 兴趣 在 于 
利用 机 器 学 习 方 法 来 解决 语音 和 文本 理解 问题 。 他 于 2007 年 在 法 国 阿 维尼 
翁 大 学 获得 博士 学 位 ， 其 中 论文 的 主题 是 语音 自动 摘要 。2003 一 2007 年 ， 
Benoit 在 阿 维尼 翁 大 学 担任 教学 助理 ， 并 在 同一 时 期 作为 巴黎 Thales Land 
& Joint Systems 的 研究 工程 师 。2007 一 2009 Æ, Benoit 在 国际 计算 机 研究 
所 (Berkeley, CA) 语音 组 做 博士 后 研究 。2009 一 2010 年 ， 他 在 法 国 勒 芒 
大 学 做 博士 后 研究 。 从 2010 年 开始 ， 他 成 为 艾 克 斯 - 马赛 大 学 的 终身 副 教 
授 和 Laboratoire d'Informatique Fondamentale 的 会 员 。Benoit 在 国际 会 议和 
期 刊 上 合 著 的 审阅 论文 超过 30 篇 。 他 是 该 领域 主要 会 议 (ICASSP, Interspeech, ACL. EMNLP, 
Coling、NAACL) 和 期 刊 《IEEE Transactions on Speech and Language Processing) AY HARA. (hfe 


International Speech Communication Association 和 IEEE 的 会 员 。 





Radu Florian (raduf(Z us. ibm. com) 是 IBM 统计 内 容 分 析 (信息 抽取 ) 
组 的 经 理 。 他 于 2002 年 在 约翰 斯 。 霍 普 金 斯 大 学 获得 博士 学 位 。 同 年 加 入 
IBM 多 语 自然 语言 处 理 组 。 在 IBM， 他 参与 了 信息 抽取 领域 很 多 不 同 的 研 
究 项 目 : 提 及 检测 、 共 指 消解 、 关 系 抽取 、 跨 文本 共 指 和 目标 信息 检索 。 
Radu 领导 研究 组 参加 了 几 个 DARPA 项 目 (GALE Distillation, MRP) 和 
NIST 组 织 的 评测 (ACE，TAC-KBP)， 并 且 和 IBM 合作 伙伴 (Nuance) 共 
同 开 发 了 用 于 医疗 领域 的 文本 挖掘 项 目 ， 并 为 Watson Jeopardy! 项 目 做 出 
Y XH. 





Dilek Hakkani-Tür (Dilek. Hakkani-Tur (9) micorsoft. com) 是 微软 首席 
科学 家 。 在 加 入 微软 之 前 ， 她 在 国际 计算 机 科学 研究 所 〈JInternational 
Computer Science Institute, ICSI) 语言 组 和 AT&T Labs-Research 
(2001— 2005 Æ) 从 事 研究 工作 。 她 于 1994 年 在 中 东 技 术 大 学 获得 学 士 学 
位 ， 并 分 别 于 1996 年 和 2000 年 在 毕 尔 肯 大 学 计算 机 工程 系 获得 硕士 和 博 
士 学 位 。 她 的 博士 论文 是 关于 黏着 语 的 统计 语言 建 模 。 她 于 1997 年 和 
1998 年 分 别 在 卡耐基 梅 隆 大 学 语言 技术 研究 所 和 约翰 斯 " 霍 普 金 斯 大 学 从 
事 机 器 翻译 研究 。1998 一 1999 Æ, Dilek 在 SRI International 利用 词汇 和 家 
律 信息 来 完成 语音 的 信息 抽取 。 她 的 研究 兴趣 包含 自然 语言 和 语音 处 理 、 
口语 对 话 系 统 以 及 针对 语言 处 理 的 主动 和 无 监督 学 习 。 她 拥有 13 个 专利 ， 
参与 撰写 的 关于 上 自然 语言 和 语音 处 理 的 论文 数量 超过 100 篇 。 她 在 2005 一 2008 年 是 《IEEE Transac- 
tions on Audio, Speech and Language Processing》 的 副 主编 。 她 现在 是 IEEE Speech 和 Language 
Technical Committee 的 当选 委员 (2009— 2012 Æ). 


Katrin Kirchhoff (kk2@u. washington. edu) 是 华盛顿 大 学 电子 工程 专 
业 的 研究 副教授 。 她 主要 的 研究 兴趣 是 目 动 语音 识别 、 自 然 语言 处 理 和 人 
机 交互 ， 特 别 是 针对 多 语言 的 应 用 。 她 写作 的 同行 审阅 的 出 版 物 数量 超过 
70 篇 ， 并 且 是 《Multilingual Speech Processing》 的 共同 编辑 。Katrin 现在 
是 IEEE Speech Technical Committee 的 会 员 ， 也 是 《Computer，Speech 
and Language 》 和 《Speech Communication) 的 编 委 。 





Philipp Koehn (pkoehn (2 inf. ed. ac. uk) 是 爱 
丁 堡 大 学 的 教授 。 他 在 南 加 州 大 学 获得 博士 学 位 ， 
并 于 1997 一 2003 年 在 该 大 学 的 信息 科学 研究 所 担 
任 研究 助理 。 他 于 2004 年 在 麻 省 理工 学 院 担 任 博士 后 研究 助理 ， 并 于 2005 
年 加 盟 爱 丁 堡 大 学 成 为 讲师 。 他 主要 研究 统计 机 器 翻译 ， 但 也 涉及 语音 、 
文本 分 类 和 信息 抽取 。 他 对 机 器 翻译 领域 的 主要 贡献 是 Europarl 语 料 的 预 
备 与 发 布 、Pharaoh 和 Moses 解码 器 的 开源 。 他 是 ACL OL ait BH ERE RS eR 
组 的 组 长 ， 也 是 专著 《Statistical Machine Translation》 的 作者 〈 剑 桥 大 学 
出 版 社 ，2010) 。 





Burn L. Lewis (burn@us. ibm. com) 是 IBM T. J. Watson Research Cen- 
ter 计算 机 科学 部 门 的 成 员 。 他 分 别 于 1967 年 和 1968 年 在 奥克兰 大 学 的 电 
于 工程 专业 获得 学 士 和 硕士 学 位 ， 并 于 1974 年 在 加 州 伯克利 大 学 的 电子 工 
程 和 计算 机 科学 专业 获得 博士 学 位 。 他 随后 加 盟 IBM 的 T. J. Watson Re- 
search Center， 其 主要 研究 方向 是 语音 识别 和 非 结 构 化 的 信息 管理 。 


Xiagiang Luo (xiaoluo@us.ibm. com) 是 IBM 
T. J. Watson Research Center 的 研究 人 员 。 他 对 人 
类 语言 技术 有 广泛 的 研究 经 历 ， 包 含 语 音 识别 、 
口语 对 话 系统 和 上 自然 语言 处 理 。 在 IBM 语音 和 语 








言 技 术 领 域 的 很 多 由 政府 资助 的 成 功 项 目 中 ， 他 是 主要 的 贡献 者 。 他 在 
2007 年 获得 IBM 杰出 技术 成 就 奖 ， 在 2006 年 获得 IBM ThinkPlace Bravo 
奖 和 许多 发 明成 就 奖 。Luo 博士 分 别 于 1999 年 和 1995 年 在 约翰 斯 * TEE 
斯 大 学 获得 博士 和 硕士 学 位 ， 于 1990 年 在 中 国 科学 技术 大 学 电子 工程 专业 
获得 学 士 学 位 。Lnuo 博士 是 计算 语言 学 协会 成 员 ， 并 且 作 为 多 个 人 类 语言 
和 人 工 智 能 主要 技术 会 议 的 程序 委员 。 他 是 中 国 科 学 与 技术 协会 大 纽约 分 


(Greater New York Chapter) 委员 会 的 成 员 。 他 于 2007 — 2010 年 担任 《ACM Transactions on 


Asian Language Information Processing (TALIP)》 的 副 主 编 。 


”Rada Mihalcea (rada@cs. unt. edu) 是 北 得 克 萨 斯 大 学 计算 机 科学 与 工 
程 系 副教授 。 她 的 研究 兴趣 是 计算 语言 学 ， 特 别 是 词汇 语义 学 、 自 然 语言 
处 理 中 基于 图 的 算法 以 及 多 语 上 自然 语言 处 理 。 她 目前 参与 了 多 项 研究 项 目 ， 
其 中 包含 词义 消 尽 、 单 语言 和 交叉 语言 的 语义 相似 度 、 关 键 词 目 动 抽取 、 
文本 摘要 、 人 情感 分 析 和 计算 机 幽默 。Rada 现 担 任 或 兽 经 担任 《Journals of 
Computational Linguistics), (Language Resources and Evaluations), 《Nat- 
ural Language Engineering) #1 (Research in Language in Computation) 等 
杂志 的 编 委 。 她 的 研究 获得 了 National Science Foundation, Google, Na- 
tional Endowment for the Humanities, State of Texas 的 资助 。 她 获得 了 国 





家 科学 基金 会 CAREER % (2008 年 ) 和 美国 总 统 青 年 科技 奖 (PECASE, 2009 4E), 





Roberto Pieraccini (www. robertopieraccini. com) 是 SpeechCycle 公司 
首席 技术 官 。Roberto 在 1980 年 毕业 于 意大利 的 比萨 大 学 电子 工程 专业 。 
1981 年 ， 他 是 CSELT 的 语音 识别 研究 人 员 ，CSELT 是 意大利 电话 运营 公 
司 的 研究 机 构 。 他 于 1990 年 加 入 贝尔 实验 室 (ŠALU, 新泽西 州 )， 成 为 
一 名 从 事 语 音 识 别 和 日语 理解 研究 的 技术 人 员 。 随 后 他 于 1996 年 加 入 
AT&T 实 验 室 ， 在 这 里 他 开始 了 口语 对 话 的 研究 。1999 年 他 担任 Speech- 
Works International 的 研发 主管 。2003 年 ， 他 加 盟 IBM T. J. Watson Re- 
search Center， 管 理 高 级 会 话 互 动 技 术 部 ， 在 2005 年 加 盟 SpeechCycle, 成 
为 首席 技术 官 。Roberto Pieraccini 在 语音 识别 、 语 言 建 模 、 字 符 识 别 、 语 
言 理解 和 自动 口语 对 话 管理 等 领域 所 著 的 论文 和 文章 超过 120 篇 。 他 是 


ISCA 和 IEEE & f, Æ (IEEE Signal Processing Magazine》 和 《JInternational Journal of Speech 
Technology》 的 编 委 。 他 也 是 Applied Voice Input Output Society and Speech Technology Consortium 


John F. Pitrelli Cpitrelli( us. ibm. com) # IBM T. J. Watson Research Cen- 
ter 多 语 上 自然 语言 处 理 部 门 的 成 员 。 他 分 别 于 1983 ^E. 1985 4E. 1990 年 在 麻 
省 理工 学 院 电 子 工 程 与 计算 机 科学 专业 获得 学 士 、 硕 士 和 博士 学 位 ， 研 究 生 
时 的 工作 是 关于 语音 识别 与 合成 的 。 在 担任 当前 的 职务 之 前 ， 他 在 纽约 怀特 
PE SE ALF AY NYNEX Science & Technology 公司 的 Speech Technology Group T 
(E. 是 IBM Pen Techologies 组 的 成 员 。 他 也 在 Watson 的 Human Language 
Technologies 组 从 事 语 音 合成 和 前 律 学 研究 。John 的 研究 兴趣 包含 自然 语言 处 
理 、 语 音 合 成 、 语 音 识 别 、 手 写 体 识别 、 统 计 语 言 建 模 、 韵 律 学 、 非 结构 化 的 
信息 管理 和 用 于 识别 的 信心 建 模 。 他 已 经 发 表 论 文 40 篇 ， 并 拥有 4 个 专利 。 





Sameer Pradhan (sameer. pradhan @Colorado. edu) 是 剑桥 大 学 BBN 
Technologies 和 麻 省 理工 学 院 的 科学 家 。 他 在 计算 语义 领域 发 表 的 文章 和 书 
籍 中 的 章节 得 到 了 大 量 的 引用 。 他 目前 正在 开创 下 一 代 语 义 分 析 引 人 擎 及 其 
应 用 。 实 现 这 个 目标 可 以 通过 算法 创新 ; 通过 研究 工具 的 广泛 分 布 ， 例 如 
Automatic Statistical SEmantic Role Tagger (ASSERT); 抑或 是 通过 生成 
一 个 丰富 、 多 层 、 多 语言 和 资源 集成 的 平台 ， 比 如 OntoNotes。 最 后 这 些 语 
义 模 型 应 该 蔡 代 当前 在 大 多 数 应 用 领域 普遍 使 用 的 简陋 的 基于 词 的 模型 ， 
并 帮助 丰富 语言 理解 领域 达到 一 个 新 的 水 平 。Sameer 于 2005 年 在 科罗拉多 
大 学 获得 博士 学 位 ， 随 后 他 在 BBN Technologies 致力 于 开发 OntoNotes 语 
料 ， 其 中 OntoNotes 是 DARPA Global Autonomus Language Exploitation 
项 目的 一 部 分 。 他 是 ACL 成 员 ， 是 针对 注解 、 促 进 注解 领域 创新 的 ACL 特殊 兴趣 组 的 创始 成 员 。 
他 经 常 担任 不 同 自然 语言 处 理会 议和 研讨 会 的 程序 委员 ， 比 如 ACL, HLT, EMNLP, CoNLL, 
COLING, LREC 和 LAW。 他 也 是 一 位 很 有 成 就 的 厨师 。 


Dan Roth (danr@illinois. edu) 是 伊利 诺 伊 大 学 龙 巴 纳 一 EA TI 
算 机 科学 系 和 贝克 曼 研 究 所 的 教授 。 他 是 AAAI 的 会 员 、 伊 利 诺 伊 大 学 学 
者 ， 在 图 书馆 与 信息 科学 研究 生 院 和 统计 语言 系 担任 教师 职务 。Roth 教授 
的 研究 横 跨 机 器 学 习 和 智能 推理 的 理论 研究 , 特别 是 自然 语言 处 理 的 学 习 
和 推导 ， 以 及 文本 信息 的 智能 访问 等 领域 。 他 在 该 领域 已 经 发 表 论 文 超过 
200 篇 ， 并 且 他 的 论文 获得 了 多 个 奖项 。 他 在 自然 语言 应 用 方面 已 经 开发 出 
了 不 同 的 基于 高 级 机 器 学 习 的 工具 ， 这 些 工 具 已 经 广泛 应 用 在 研究 界 ， 其 
中 包含 一 个 屡 获 殊荣 的 语义 分 析 器 。 他 是 AAAIT11、CoNl02 和 ACL’03 
的 程序 委员 会 主席 ， 并 且 现 在 是 几 个 他 所 在 领域 的 期 刊 的 编 委 。 他 现在 是 
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的 副 主编 。Roth 教授 以 优异 的 成 绩 获得 以 色 列 理工 学 院 数 学 专业 的 学 士 学 位 ， 并 在 哈佛 大 学 计算 机 
科学 专业 获得 博士 学 位 。 


Mark Sammons (mssammon(2illinois. edu) J& Bt i pr 2€ JE ESSA -F 
槟 分 校 认 知 计算 组 的 首席 研究 科学 家 。 他 主要 的 研究 兴趣 是 目 然 语言 处 理 
和 机 器 学 习 ， 特 别 专注 于 将 不 同 的 信息 源 集 成 到 文本 蕴涵 的 上 下 文中 。 他 
的 工作 已 专注 于 开发 一 个 文本 蕴涵 框架 ， 使 得 新 的 资源 可 以 容易 地 融入 进 
来 ， 设计 出 一 个 合理 的 推导 程序 来 识别 蕴涵 ， 鉴 别 和 开发 自动 的 方法 来 识 
别 和 表达 自然 语言 文本 的 隐 含 的 内 容 。Mark 于 2004 年 在 伊利 诺 伊 大 学 计 
算 机 科学 专业 获得 硕士 学 位 ， 于 2000 年 在 英格兰 的 利 北大 学 机 械 工程 专业 
获得 博士 学 位 。 





Anoop Sarkar (www. cs. sfu.ca/~anoop) 是 位 于 加 拿 大 不 列 颠 哥 伦 
比 亚 省 的 西蒙 。 弗 雷 泽 大 学 的 计算 科学 副教授 ， 他 是 自然 语言 处 理 实验 
Æ (http: //natlang. cs. sfu. ca) 的 主要 负责 人 之 一 。 他 在 宾夕法尼亚 大 
学 计算 机 与 信息 科学 系 获 得 博士 学 位 。 在 Aravind Joshi 教授 的 指导 下 完 
成 了 半 监 督 的 统计 名 法 分 析 和 树 邻 接 文法 的 句法 分 析 。Anoop 当前 专注 
于 研究 统计 句法 分 析 和 机 器 翻译 〈 利 用 句法 或 形态 学 ， 或 者 两 者 结合 ) 。 
他 的 兴趣 还 包含 正规 语言 理论 和 随机 文法 ， 特别 是 树 自动 机 和 树 邻 接 
ME. 





Frank Schilder (frank. schilder@ thomsonreut- 

ers. com) Æ Thomson Reuters 研发 部 的 首席 研究 科学 家 。 他 于 2004 年 加 盟 
Thomson Reuters， 致 力 于 研究 摘要 技术 和 信息 抽取 系统 。 他 关于 摘要 的 工 
作 已 经 实现 为 摘要 生成 器 ， 用 于 WestLawNext 的 搜索 结果 (WestLawNext 
Zz Thomson Reuters 新 开发 的 法 律 研究 系统 )。 他 当前 的 研究 涉及 参加 不 同 
的 研究 比赛 ， 比 如 由 美国 国家 标准 与 技术 研究 所 举办 的 文本 分 析 会 议 。 他 
于 1997 年 在 苏格兰 的 爱丁堡 大 学 认 知 科学 专业 获得 博士 学 位 。1997 一 2003 
年 ， 他 受聘 于 德国 汉堡 大 学 信息 系 ， 开 始 作 为 博士 后 研究 人 员 ， 后 来 成 为 
助理 教授 。Frank 已 经 在 几 个 期 刊 上 发 表 了 多 篇 论文 ， 并 编写 了 一 些 书 的 章 
节 ， 其 中 包括 《Encyclopedia of Language and Linguistics) (Elsevier, 2006) 书 的 “Natural Language 
Processing: Overview”， 内 容 由 他 与 Thomson Reuters 的 首席 科学 家 Peter Jackson 合 著 。2011 4, 
他 联合 赢得 了 Thomson Reuters Innovation 挑战 。 他 在 计算 语言 学 期 刊 担 任 审 稿 人 ， 并 多 次 成 为 由 
Association of Computational Linguistics 组 织 的 会 议 的 议程 委员 会 成 员 。 


Nico Schlaefer (nico@cs. cmu. edu) 是 卡 硅 基 梅 隆 大 学 计算 机 科学 学 院 
的 博士 研究 生 ， 也 是 IBM 博士 Fellow。 他 的 研究 主要 是 将 机 器 学 习 技 术 应 
用 在 自然 语言 处 理 任务 中 。Schlaefer 开发 的 算法 能 够 让 问答 系统 找到 正确 
的 答案 一 一 尽管 原始 的 信息 源 几 乎 没有 包含 相关 的 内 容 ， 并 开发 了 一 个 灵 
活 的 框架 来 支持 集成 这 样 的 算法 。Schlaefer 是 OpenEphyra 的 主要 作者 
(OpenEphyra 是 最 广泛 使 用 的 开源 问答 系统 之 一 )。Nico 对 Watson 贡献 了 
一 个 统计 的 源 扩展 方法 (Waston 是 一 台 在 Jeopardy! 智力 竞赛 表演 中 战胜 
人 类 的 计算 机 )。 他 利用 网 络 和 其 他 大 型 文本 语料库 来 自动 扩展 知识 源 ， 使 
得 Watson 能 够 更 加 容易 地 找到 答案 和 支持 的 证 据 。 
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Elizabeth Shriberg (elshribe(Z microsoft. com) 当前 是 微软 首席 科学 家 。 
之 前 她 在 SRI International (加 利 福 尼 亚 州 门 洛 帕 克 ) 工作 。 她 也 隶属 于 国 
际 计算 机 科学 研究 所 〈 加 州 大 学 伯克利 分 校 ) 和 CASL (马里 兰 大 学 )。 她 
在 哈佛 (1987 Æ) 获得 学 士 学 位 ， 在 加 州 大 学 伯克利 分 校 (1994 年 ) 获得 
博士 学 位 。Elizabeth 主要 的 兴趣 是 使 用 词汇 和 韵律 信息 来 完成 自发 语言 建 
模 。 她 的 工作 引 在 将 语言 学 知识 与 语 料 、 自 动 语音 、 说 话 者 辨别 技术 结合 ， 
进而 提高 科学 理解 和 技术 。 她 在 语音 科学 和 技术 领域 已 经 发 表 了 大 约 200 
篇 论文 ， 并 担任 《语言 和 语音 》 的 副 主 编 ， 是 Speech Communication and 

—— ^ Computational Linguistics 委员 会 委员 ， 是 许多 会 议和 研讨 会 的 委员 会 委员 ， 

是 ISCA Advisory Council 和 ICSLP Permanent Council 的 委员 会 委员 。 她 已 经 组 织 了 多 个 研讨 会 ， 
并 担任 National Science Foundation, European Commission, NOW (fj 25) 的 委员 会 委员 。 她 已 经 
审阅 过 许多 跨 学 科 的 会 议 、 研 讨 会 和 期 刊 (例如 《IEEE Transaction on Speech and Audio Process- 





ing), «Journal of the Acoustical Society of America, Nature), «Journal of Phonetics, Computer 


Speech and Language), (Journal of Memory and Language, Memory and Cognition. Discourse 


Processes), 2009 年 ， 她 获得 了 ISCA Fellow "€ , 2010 年 她 成 为 了 SRI 的 会 员 ， 


Otakar Smrž (otakar. smrz@cmu. edu) 是 位 于 卡塔尔 的 卡耐基 梅 隆 大 学 博士 
后 研究 人 员 ， 他 致力 于 通过 学 习 可 比 语 料 的 方法 来 改进 以 阿拉 伯 语 作为 源 语 
言 和 目标 语言 的 机 器 翻译 。Otakar 在 位 于 布拉格 的 查尔斯 大 学 完成 他 的 数学 
语言 学 的 博士 研究 。 他 使 用 函数 式 编 程 来 设计 和 实施 阿拉 伯 形 态 学 的 Elixir- 
Fm 计算 模型 ， 并 开发 了 其 他 自然 语言 处 理 的 开源 软件 。 他 曾经 是 Prague 
Arabic Dependency Treebank 的 主要 研究 人 员 。Otakar 过 去 是 IBM Czech 
Republic 的 研究 科学 家 ， 致 力 于 开发 无 监督 的 语义 分 析 和 对 多 语言 的 声音 建 
Bi. Otakar 是 位 于 卡塔尔 的 Dzám-e Diam 语言 学 院 的 联合 创办 者 。 





Philipp Sorg (philipp. sorg(2 kit. edu) 是 德国 卡尔 斯 鲁 厄 技术 研究 所 
的 博士 研究 生 。 他 是 应 用 信息 与 形式 化 描述 方法 学 院 的 研究 人 员 。Phil- 
ipp 毕业 于 卡尔 斯 鲁 厄 大 学 计算 机 科学 专业 。 他 主要 的 研究 兴趣 是 多 语 
言 信息 获取 。 他 特别 关注 利用 社会 语义 应 用 到 Web 2.0 的 上 下 文中 。 他 
已 经 参与 了 欧洲 研究 项 目 Active， 还 参加 了 国际 研究 项 目 Multipla 
(DFG). 


David Suendermann ( david @ speechcycle. com ) 
是 SpeechCycle Labs (纽约 ) 的 首席 语音 科学 家 。 
Suendermann 博士 在 过 去 的 十 年 里 探索 了 语音 技术 
研究 的 很 多 不 同 领域 。 他 在 多 个 企业 和 学 术 机 构 从 事 研 究 ， 其 中 包括 西门 
T 〈 莫 尼 黑 )、 哥 伦比 亚 大 学 〈 纽 约 ) 、 南 加 州 大 学 RIL. MEP EL 
理工 大 学 〈 巴 塞 罗 那 ) 和 亚 琛 工业 大 学 〈 亚 琛 ， 德 国 ) 。 他 参与 出 版 的 书籍 
和 专利 数目 超过 了 60， 其 中 包括 一 本 书 和 5 本 书 的 部 分 章节 ， 他 在 慕尼黑 
的 德国 联邦 国防 军 大 学 获得 博士 学 位 。 


Gokhan Tur (gokhan. tur@ieee. org) 目前 是 微 

软 的 首席 科学 家 。 他 分 别 于 1994 Æ., 1996 年 和 2000 年 在 土耳其 的 毕 尔 肯 
大 学 获得 学 士 、 硕 士 和 博士 学 位 。1997 一 1999 4E, Tur 访问 卡耐基 梅 隆 大 
学 的 机 器 翻译 中 心 ， 然 后 访问 了 约翰 斯 。 堆 普 金 斯 大 学 的 计算 机 科学 系 ， 
最 后 访问 了 SRI International 的 语音 技术 和 研究 实验 室 。 他 于 2001 一 2006 
年 在 AT&T Labs-Research 工作 ，2006 ~ 2010 年 在 SRI International 的 语 
音 技术 和 研究 实验 室 工作 。 他 的 研究 兴趣 包含 口语 理解 、 语 音 和 语言 处 理 、 
机 器 学 习 及 信息 获取 和 抽取 。 他 所 著 或 与 他 人 合 著 的 论文 在 权威 期 刊 或 书 
籍 上 发 表 的 数量 已 经 超过 100 篇 ， 并 出 席 了 一 些 国际 会 议 。 他 是 《Spoken 
Language Understanding; Systems for Extracting Semantic Information from Speech) (Wiley, 2011) 
的 编审 。Tur 博士 是 IEEE、ACL 和 ISCA 的 高 级 会 员 ， 也 是 IEEE Signal Processing Society (SPS) , 
2006 4E —2008 年 的 Speech and Language Technical Committee (SLTC) 的 会 员 。 目 前 他 是 《IEEE 
Transations on Audio, Speech, and Language Processing》 的 副 主 编 。 
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t V. G. Vinod Vydiswaran (vgvinodv@ illinois. edu) 目前 是 伊利 庄 伊 大 学 
T FEA -香槟 分 校 计 算 机 科学 系 的 博士 研究 生 。 他 的 论文 是 关于 网 络 的 信 
息 可 信和 度 建 模 ， 他 的 导师 是 ChengXiang Zhai 教授 和 Dan Roth 教授 。 他 的 
研究 兴趣 包含 文本 信息 、 自 然 语言 处 理 、 机 器 学 习 和 信息 抽取 。 
V. G. Vinod 的 工作 包含 开发 文本 蕴涵 系统 并 将 文本 草 涵 应 用 在 关系 抽取 
和 信息 获取 中 。 他 于 2004 年 在 印度 理工 学 院 孟 买 分 校 获得 硕士 学 位 ， 他 
在 导师 Sunita Sarawagi 教授 的 指导 下 研究 信息 抽取 的 条 件 模型 。 随 后 他 在 
印度 的 班加罗尔 Yahoo 研发 中 心 工 作 ， 研 究 网 络 规模 信息 抽取 技术 。 





Janyce Wiebe (wiebe@cs. pitt. edu) 是 匹 效 堡 大 学 计算 机 科学 专业 教授 
和 智能 系统 计划 的 联合 主任 。 她 与 学 生 和 同事 的 研究 方向 是 自然 语言 处 理 的 
话语 处 理 、 语 用 学 、 词 义 消 歧 和 概率 分 类 。 她 的 研究 主要 关注 主观 性 分 析 、 
对 文本 的 情感 和 意见 表达 的 识别 和 解释 ， 用 于 支持 自然 语言 处 理 的 应 用 ， 例 
如 问答 、 信 息 抽取 、 文 本 分 类 和 摘要 。jJanyce 在 专业 领域 曾 担 任 的 角色 包括 
ACL 议程 联合 主席 、NAACL 程序 主席 、NAACL 执行 委员 会 委员 、 计 算 语 
言 学 家 、 语 言 资 源 和 评估 专家 、 编 辑 委 员 会 委员 、AAAI 研讨 会 联合 主席 、 
ACM 人 工 智 能 (SIGART) 特殊 兴趣 组 副 主席 和 ACM-SIGART/AAAIT 博 
士 论 坛 主席 。 





Hyun-Jo You (youhyunjo@gmail.com) 目前 是 首尔 国立 大 学 语言 系 讲 
师 。 他 在 首尔 国立 大 学 获得 博士 学 位 。 他 的 研究 兴趣 包含 定量 语言 学 、 统 计 
语言 建 模 和 计算 语 料 分 析 。 他 对 研究 形态 变化 多 样 、 无 词 序 语言 的 形态 句法 
和 话语 结构 特别 感 兴 趣 ， 例如 汉语 、 捷 克 语 和 俄罗斯 语 。 


Liang Zhou (liangz @ isi. edu) 是 Thomson 
Reuters 公司 的 研究 科学 家 。 她 在 自然 语言 处 理 方 
面 有 广博 的 知识 ， 包 括 情 感 分 析 、 自 动 文本 摘要 、 
文本 理解 、 信 息 抽 取 、 问 答 和 信息 提炼 。 她 在 信息 
科学 研究 所 做 研究 生 时 ， 积 极 参与 了 由 政府 资助 的 
多 个 项 目 ， 比 如 NIST Document Understanding 会 议和 DARPA Global Au- 
tonomous Language Exploitation。Zhou 博士 于 2006 年 在 南 加 州 大 学 获得 博 
士 学 位 ， 于 2001 年 在 斯 坦 福 大 学 获得 硕士 学 位 ， 于 1999 年 在 田纳西 州 大 学 
获得 学 士 学 位 ， 专 业 都 是 计算 机 科学 。 
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第 1 章 “ 找 出 词 的 结构 ”， 描 述 如 何 识别 人 类 语言 中 不 同类 型 的 词 ， 
如 何 建立 词 的 内 部 结构 、 语 法 性 质 、 词 法 概念 的 模型 。 

第 2 章 “ 找 出 文档 的 结构 ”， 讨 论 如 何 找 出 文档 结构 ， 并 将 其 分 解 为 
更 容易 处 理 的 单位 ， 例 如 句子 或 表示 同一 话题 的 文本 段 。 

第 3 章 “ 和 句法 ”， 描 述 如 何 找 出 句子 的 结构 。 

第 4 章 “ 语 义 分 析 ”， 探 索 找 出 句子 意义 表示 的 自动 方法 。 

第 5 章 “ 语 言 模型 ?， 讨 论 如 何 建立 一 个 模型 ， 该 模型 可 对 每 个 可 能 
的 有 限 长 度 的 词 串 赋 以 一 个 概率 估算 或 分 数 。 

第 6 章 “ 文 本 蕴涵 识别"”， 讨 论 确定 一 段 文本 中 的 指定 事实 是 否 为 另 
一 段 文本 中 的 事实 所 蕴涵 的 方法 。 

第 7 章 “ 多 语 情 感 与 主观 性 分 析 ”， 探 索 确 定 句 子 是 否 是 主观 的 并 确 ) 
定 所 表达 的 意见 的 倾向 性 和 其 他 性 质 的 方法 。 
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找 出 词 的 结构 





Otakar Smrz, Hyun-Jo You 


人 类 语言 很 复杂 。 我 们 用 语言 来 表示 思想 ， 获 取信 息 ， 推 断 出 意义 。 语 言 表 达 并 非 没 
有 组 织 。 其 结构 多 样 ， 复 杂 程 度 千 差 万 别 ， 复 杂 结 构 由 基本 部 件 组 成 ， 在 一 定 的 上 下 文中 
通过 共 现 来 表示 比 其 孤立 使 用 时 更 精细 的 意义 及 其 意义 间 的 关系 。 

整体 上 理解 语言 不 可 行 . 语言 学 家 从 不 同 的 角度 、 不 同 的 细节 层次 来 考察 语言 ， 比 如 
形态 学 研究 词 的 可 变形 式 和 功能 ， 而 句法 则 研究 词 如 何 排列 构成 短语 、 子 句 和 句子 。 由 于 
音 而 导致 的 词 结构 限制 由 语音 学 描述 ， 而 书写 的 规则 则 构成 了 语言 的 正字 法 。 语 言 表达 
式 的 意义 属于 语义 学 的 内 容 ， 词 源 学 和 词汇 学 则 研究 词 的 演变 并 解释 词 之 间 的 语义 、 形 态 
和 其 他 联系 。 

词 可 能 是 语言 最 直观 的 单位 ， 但 实际 上 定义 什么 是 词 颇 为 环 手 。 词 的 研究 是 句法 、 语 
义 抽象 及 其 他 与 语言 相关 的 高 级 话题 的 前 提 。 形 态 学 是 语言 处 理 的 必要 部 分 ， 尤 其 在 多 语 
的 环境 下 变 得 越 来 越 重要 。 

本 章 将 探索 如 何 识别 人 类 语言 中 不 同类 型 的 词 ， 如 何 建立 词 的 内 部 结构 、 语 法 性 质 、 
词法 概念 的 模型 。 词 结构 的 发 现 称 为 形态 分 析 (morphological parsing)。 

这 个 任务 有 多 困难 ? 决定 因素 有 很 多 。 在 某 些 语言 中 ， 词 由 空格 或 标点 分 割 ; 但 是 在 
另 一 些 语言 中 ， 书 写 系统 使 读者 区 分 词 或 者 确定 其 精确 的 语音 形式 。 有 些 语言 的 词 不 随 上 
下 文 变化 ， 而 另 一 些 语言 的 词 会 根据 句法 和 语义 有 不 同 的 词 形变 化 。 


1.1 词 及 其 部 件 

在 大 多 数 语 言 中 ， 词 被 定义 为 能 形成 完整 言语 的 最 小 语言 单位 。 词 的 最 小 语义 部 分 称 
为 词素 (morpheme) 。 根 据 交 流 方式 的 不 同 ， 词 素 可 用 形 素 (grapheme) (比如 字母 和 字 
符 等 书写 符号 ) 拼写 出 或 用 音素 (phoneme) (口语 中 可 区 分 的 语音 单位 ) 说 出 号 。 确 定 
i]. 、 词 素 和 短语 之 间 精 确 的 分 界 并 不 总 是 很 容易 [1. 2]. 


LI T W 
假设 英语 中 的 词 只 由 空格 和 标点 隔 开 [3」， 考 虑 例 1: 


例 1-1 Will you read the newspaper? Will you read it? I won't read it. 

如 果 我 们 懂 词 源 和 句法 知识 ， 那 么 我 们 注意 到 这 里 有 两 个 词 可 能 和 假设 有 些 冲 突 : 
newspaper 和 won't。 前 者 是 一 个 复合 词 ， 有 明显 的 派生 结构 。 如 果 有 词典 或 其 他 语言 证 
据 可 佐证 该 词 的 来 源 的 假设 ,我 们 可 能 会 更 详细 地 描述 它 。 书 面 上 ，newspaper 及 其 相关 
概念 和 单独 的 news 与 paper 是 不 同 的 。 然 而 ， 在 口语 中 其 区 别 却 不 甚 明显 ， 词 的 识别 成 
了 一 个 问题 。 


所 ”在 手语 中 用 的 符号 也 由 称 为 音素 的 元 素 构成 。 
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为 了 一 般 性 ， 语 言 学 家 喜欢 把 won't 分 解 为 两 个 语法 词 ， 或 称 词 元 ， 其 中 每 个 词 元 有 
其 独立 的 作用 并 有 规范 形式 。 从 结构 上 说 ，won*t 可 被 分 析 为 will 后 面 跟随 not。 在 英语 
中 ， 这 种 词 的 切 分 (tokenization) 和 规范 化 (normalization). 也 许 很 少 ， 而 在 其 他 语言 
中 ， 这 种 现象 可 能 很 多 。 

在 阿拉 伯 语 或 希 伯 来 语 中 [4]， 某 些 词 元 在 书写 时 需要 与 前 后 的 词 元 连 写 ， 也 可 改变 
其 形式 。 其 内 在 的 词法 或 句法 单位 可 能 体现 在 紧缩 的 一 串 字 母 中 ， 并 非 能 明晰 地 分 解 为 
ij. 。 很 多 语言 中 的 词 元 有 这 种 行为 ， 这 种 词 元 经 常 被 称 为 附着 词 。 

在 汉语 、 日 语 L5]、 泰 语 的 书写 系统 里 ,不 采用 空格 来 隔 开 词 。 在 某 种 程度 上 形式 地 
可 区 分 的 单位 是 句子 或 子 句 。 在 韩语 中 ， 字 符 串 称 为 eojeol Calis), 粗略 地 对 应 于 语音 或 
认 知 单位 ， 比 词 大 ， 比 子 句 小 [6]. WP) 1-2 所 示 : 

例 1-2 JMWEJAN Ax 

hak. sayng. tul. ey. key. man cwu. syess. nun. te 

haksayng-tul-eykey-man cwu-si-ess-nunte 

student+ plural-t- dative t only give+honori fic-- past+ while 

whileChe/she)gave(Cit?only to the students 

尽管 如 此 ， 基 本 的 形态 单位 被 视 为 有 其 句法 地 位 [7]。 在 这 些 语言 中 ， 词 的 切 分 , 或 称 
分 词 (word segmentation) ， 是 形态 分 析 的 基础 性 步骤 ， 也 是 大 多 数 语 言 处 理应 用 的 前 提 。 


Li.2 jae 


词 这 个 术语 ， 通 和 常 我 们 不 但 指 其 在 给 定 上 下 文中 的 语言 形式 ， 而 且 表 示 其 形式 背后 
的 概念 ， 以 及 可 表示 该 概念 的 其 他 形式 的 集合 。 该 集合 被 称 为 词 形 ， 或 词 项 ， 它们 构成 
了 一 个 语言 的 词典 。 词 可 根据 其 行为 分 为 动词 、 名 词 、 形 容 词 、 连 词 、 小 品 词 等 词类 
(词性 ) 。 词 形 的 引用 形式 也 称 为 原形 (lemma), 

当 我 们 把 词 转 化 为 其 他 形式 时 ， 比 如 把 单数 的 mouse 转 为 复数 mice 或 mouses, RI 
说 对 该 词 形 进行 了 届 折 变化 。 当 把 一 个 词 形变 化 为 形态 上 相关 的 另 一 个 词 ， 而 不 管 其 词类 
是 否 相 同时 ， 我 们 称 对 该 词 形 进行 了 派生 。 人 例如， 名词 receiver 和 reception 是 由 动词 to 
receive 派生 而 来 。 

例 1-3 Did you see him? I didn't see him. I didn't see anyone. 

fj 1-3 提出 了 didn't HWA fll anyone 的 内 部 结构 问题 。 在 释义 Tsarw no one 中 ， 词 to 
see 被 届 折 变化 成 saw 以 表示 其 过 去 时 态 的 语法 功能 。 同 样 ，him 是 he 或 甚至 表示 所 有 人 
称 代 词 的 更 抽象 的 语素 的 从 格 形式 。 在 上 述 释 义 中 ，no one 可 以 被 认为 是 和 词 nobody 同 
义 的 最 小 词 。 如 果 我 们 把 两 个 紧密 相关 的 词 元 no one 当 作 一 个 固定 的 词 理 解 ， 那么 ， 对 于 
用 语法 描述 什么 是 一 个 词 的 困难 就 不 复 存 在 了 。 

在 例子 1-3 的 捷克 语 翻 译 中 ， 词 videt "to see” 届 折 变 化 为 过 去 时 ， 而 形式 是 由 第 一 
人 称 和 第 二 人 称 的 两 个 词 元 组 成 ( 即 viděla js; “you-FEM-SG saw’ and neviděla jsem 
“IFEM-SG did not see’”)。 捷 克 语 的 否定 是 一 个 届 折 变化 参数 ， 而 不 仅 是 句法 的 ， 需 同时 
在 动词 及 其 相关 代词 中 标记 ， 正 如 例 1-4 所 示 : 

£j 1-4  Vidélas ho? Nevidéla jsem ho. Nevidéla jsem nikoho. 


日 ”使 用 耶鲁 拼音 表示 韩文 ,通过 点 号 标 出 原始 的 字符 。 使 用 连 字号 标记 形态 学 边界 ,加 号 分 开 词 元 。 
© MX lexeme 按照 字面 意义 是 指 词典 的 基本 单位 ;实际 就 是 “ 词 ”"。 当 强调 其 基本 意义 时 ， 也 翻译 为 “语素 ”。 
这 里 为 了 和 “word” 相 区 分 ， 译 为 “ 词 形 ”。 不 采用 目前 的 流行 翻译 “ 词 位 ”。 一 一 译 者 注 
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saw 十 you-are him? not-saw I-am him. not-saw I-am no-one. 

这 里 vidélas 是 viděla jsi “you-FEM-SG saw" fj ZAJE. jsi "you are" AY s EM 
着 词 ， 由 于 捷克 语 的 自由 语序 ， 可 以 附着 在 几乎 任何 词 的 后 面 。 因 此 我 们 可 提问 : Nikphos 
neviděla? "Did you see no one?”， 此 处 代词 nikoho “no one" 后 面 跟 了 这 个 附着 词 。 


h43.A 


形态 理论 的 主要 差别 在 于 是 否 并 且 如 何 将 词 形 的 性 质 与 其 结构 部 件 联系 起 来 [8，9， 
10，11]j。 这 些 部 件 通常 称 为 “ 节 ” (segment) 或 “ 形 元 ” (morph) 。 词 的 表意 形 元 称 为 
某 种 功能 的 词素 (morpheme), 

人 类 语言 采用 很 多 手段 ， 可 将 形 元 或 词素 合并 成 词 形 。 最 简单 的 形态 过 程 将 形 元 一 个 
接 一 个 连接 起 来 ， 如 disagree-ment-s, EP agree 是 一 个 自由 词素 ， 其 他 三 个 是 表达 语法 
意义 的 黏着 词素 ， 合 起 来 表示 词 的 整体 意义 。 

在 更 复杂 的 情形 中 ， 形 元 间 可 互相 作用 ， 其 形式 可 有 语音 或 书写 的 变化 ， 称 为 “ 形 
音 ”(morpho-phonemic) 变化 。 词 素 的 其 他 形式 称 为 变 体 词 素 (allomorph) 。 

在 韩语 中 ， 形 态 变化 和 词素 的 形式 依赖 于 语音 的 例子 比比 皆 是 。 很 多 词素 随 着 其 
语音 上 下 文 不 同 而 系统 地 改变 其 形式 。 下 面 的 例 1-5 列 出 了 表示 过 去 时 态 的 时 态 标记 
的 变 体 词 素 -ess-、-ass-、-yess-。 前 两 个 根据 其 前 面 动 词 词 干 的 语音 而 变化 ， 最 后 1 
个 经 常 和 动词 na-“do” 一 起 使 用 。 适 当 的 变 体 可 直接 跟 在 词 干 后 面 ， 也 可 以 进一步 
紧缩 ， 如 例 1-2 中 -szess- 紧缩 为 -syess-。 在 形态 分 析 中 ， 变 体 词 素 规 范 化 为 词素 的 正 
规 形 式 是 有 益 的 ， 尤 其 是 当 形 元 的 紧缩 与 简单 的 切 分 相干 扰 的 时 候 。 


例 1-5 连接 紧缩 
(a) Ek  po-ass- XL — pwass- ‘have seen’ 
(b) ZAJ- ka.ci-ess- 7}A- ka.cyess- ‘have taken’ 
(c) R- ha-yess- - hayss- ‘have done’ 
(d) AR-  toy-ess- S- twayss- ‘have become’ 
(e) 9%- noh-ass- X  nwass- ‘have put’ 


紧缩 形式 (a), (b) 是 普通 的 ， 但 是 需要 引起 注意 ， 因 为 两 个 字符 缩 成 了 一 个 。 其 他 类 型 
(c), (D, ，(e) 语音 上 不 可 预测 ， 或 与 具体 词 相 关 。 例 如 ，coh-ass-“have been good” 永 远 
不 能 紧缩 ， 而 noh 和 -ass- 被 合并 成 了 nwass-， 如 例 1-5(e) 所 示 。 

还 有 形成 词 的 其 他 语言 手段 需要 加 以 解释 ， 因 形态 分 析 过 程 本 身 并 不 是 小 事 。 连 接 操 作 
可 能 伴 有 形 元 的 和 人 或 交 缠 ， 这 在 阿拉 伯 语 中 很 普遍 。 即 使 在 英语 中 ， 也 存在 将 词 内 部 的 元 
音 进 行 改变 的 非 连接 的 屈折 变化 : 请 比较 mouse 和 mice, see 和 saw, read 和 read 的 音 变 。 

在 阿拉 伯 语 中 ， 内 部 的 屈折 变化 经 常 发 生 ， 并 且 具 有 不 同 的 性 质 。 词 内 部 的 一 部 分 ， 
称 为 词 干 ， 可 由 词根 和 词素 模式 来 描述 。 词 的 结构 因此 可 由 抽象 了 词根 的 、 只 显示 模式 和 
由 

hl stqrO h*h AljrA}d?®S . S CN RS 

rh piis hadihi ’l-garaida? FUIS J^ 

whether will+you-read this the-newspapers? 

hl stqrWhA? ln OqrOh4. Aal sl cp f$ aL ja 

hal sa-tagrauha? lan »aqra»aha. 

whether will+you-read+it? not-will I-read+it. 


© 使 用 Buckwalter 标记 直译 原来 的 阿拉 伯 文 字 。 为 了 方便 阅读 ， 也 给 出 了 标准 的 语音 转 写 ， 以 减少 歧义 。 
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例 1-6 的 意义 和 例 1-1 类 似 ， 只 是 短语 hadihi 'l-garavida ff "these newspapers”, sa 
tagra*u "you will read” 在 陈述 语气 和 主动 语 态 中 合并 了 将 来 态 标 记 sa- 和 未 完成 第 二 人 称 
阳性 单数 动词 tagrau, Mi sa-tagrauha “you will read it” 也 增加 了 在 宾 格 附着 的 阴性 单数 
AGRIS, 

tagrau "you-MASC-SG read” 所 属 的 词 形 的 引用 形式 是 cara*， 大 意 是 “to read", 
语言 学 家 把 这 种 形式 分 类 为 由 模板 faal 与 辅音 词根 gr; 合并 的 基本 动词 形式 ， 其 中 模板 
的 f 必 符号 被 相应 的 词根 辅音 所 代替 。 这 个 词 形 的 届 折 变化 可 把 词 目的 词 干 的 模式 faal 
修改 为 fxaal1， 并 且 根 据 形 音 变 化 规则 和 更 多 的 前 级 和 后 缀 进行 连接 。tagraw 的 结构 因此 可 
分 析 为 模板 ta-fal-u 和 不 变 词根 。 

在 宾 格 和 确定 态 的 词 al-gararida “the newspaper” 是 另 一 个 内 部 屈折 变化 的 例子 。 其 
结构 来 自 于 模板 al-fa<ail-a 和 词根 yr 4d。 这 个 词 是 有 模板 falah 的 garidah “news- 
paper” 的 复数 。 单 、 复 数 模板 的 联系 有 一 定 的 规律 ， 应 该 在 词典 中 声明 。 

不 考虑 内 含 的 形态 过 程 ， 词 的 特性 不 一 定 能 从 其 形态 结构 中 明显 看 出 。 其 现 有 的 结构 
部 件 可 能 同时 配合 或 依赖 于 几 个 功能 ， 但 不 一 定 有 特别 的 词法 意义 或 语法 解释 。 

garidah "newspaper" WJ Ja% -ah 与 该 词 的 内 在 的 阴性 相应 。 事 实 上， 词素 -oj 通常 
(虽然 不 是 在 所 有 情况 下 〉 用 来 标记 形容 词 的 阴性 单数 形式 。 例 如 ，gjadid HM T gadidah 
“new”。 然 而 ， 后 级-ah 也 可 以 是 非 阴性 的 词 的 一 部 分 ， 在 这 种 情况 下 其 功能 可 看 作 是 被 
虚 化 或 代替 12]. 一 般 情况 下 ， 语言 形 式 应 该 与 其 功能 相 区 分 ， 也 不 是 每 一 个 形 元 都 能 
被 假设 为 一 个 词素 。 


1.1.4 类 型 学 


形态 类 型 学 根据 语言 的 主要 的 形态 现象 把 语言 划分 成 知 干 组 。 可 以 考虑 多 种 标准 ， 在 
语言 学 的 历史 上 ， 提 出 了 多 种 分 类 法 [13，14]。 我 们 简单 地 刻画 一 下 基于 词 、 词 素 及 其 
特征 的 数量 关系 的 类 型 学 。 

孤立 型 (isolating) 或 分 析 型 (analytic) 语言 不 包含 或 仅 少 量 包 含 可 被 划分 为 多 个 词 
素 的 词 (典型 成 员 包 括 汉 语 、 越 南 语 、 泰 语 ; 分 析 型 趋势 也 可 以 在 英语 中 找到 ) 。 

BRAW (synthetic) 语言 可 在 一 个 单词 中 合并 多 个 词素 ， 可 进一步 被 区 分 为 黏着 语 和 
屈折 语 。 

黏着 语 (agglutinative) 的 词素 一 次 只 能 有 一 个 功能 〈 如 韩语 、 日 语 、 分 兰 语 、 泰 米 
KAF). 

屈折 语 (fusionaD 定义 为 其 词素 特征 比 大 于 1 的 语言 〈 如 阿拉 伯 语 、 捷 克 语 、 拉 了 丁 
m. RI. fi. 

根据 上 面 提 及 的 词 构成 过 程 的 概念 ， 我 们 也 区 分 : 

连接 型 (concatenative) 语言 可 把 形 元 和 词素 一 个 接 一 个 连 起 来 。 

非 线性 (nonlinear) 语言 允许 把 结构 部 件 进 行 非 顺 序 的 合并 ， 并 且 可 应 用 声调 词素 或 
改变 词 的 元 音 或 辅音 模板 。 

尽管 有 些 形 态 现象 ， 如 字母 接合 、 语 音 紧 缩 、 复 杂 的 曲折 或 派生 变化 ， 在 有 些 语言 
比 另 一 些 语言 中 更 明显 ， 但 理论 上 我 们 可 以 在 不 同 语言 家 族 或 类 型 中 找到 这 些 现象 ， 并 且 
也 应 该 能 处 理 这 些 现象 。 


全 ”在 阿拉 伯 语 中 ， 物 的 逻辑 复数 形式 上 是 阴性 单数 。 
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1.2 问题 和 挑战 


形态 分 析 试 图 消除 或 减少 词 形 的 可 变性 ， 以 提供 更 高 级 的 、 其 词法 和 形态 性 质 被 明确 
表示 或 定义 的 语言 单位 。 它 试图 去 除 不 必要 的 不 规则 性 、 限 制 歧 义 ， 而 这 两 者 在 人 类 语言 
中 是 内 在 的 。 

不 规则 性 意味 着 存在 不 能 用 一 个 典型 的 语言 学 模型 来 描述 的 形态 和 结构 。 有 些 不 规则 性 可 
以 通过 重新 设计 模型 或 改进 规则 来 解决 ， 但 是 其 他 依赖 于 词 的 不 规则 性 经 常 不 能 被 一 般 化 。 

歧义 是 语言 表达 解释 的 不 确定 性 。 除 了 偶然 的 歧义 、 由 于 多 义 词 而 导致 的 歧义 ， 还 有 
一 种 叫 同 态 (syncretism)， 即 系统 性 歧义 。 

形态 建 模 也 面临 着 语言 能 产 性 和 创造 性 问题 ， 因 为 新 词 或 旧 词 新 义 不 断 产生 。 不 过 通常 
而 言 ， 没 列 在 形态 分 析 词 典 中 的 词 一 般 无 法 分 析 ， 这 个 问题 称 为 未 登录 词 (unknown word) 
问题 ， 不 管 是 在 口语 或 书面 语 中 ， 只 要 和 语言 学 模型 期 望 的 领域 不 一 致 时 这 种 情况 就 会 很 严 
E, 例如 当 语 篇 中 存在 专门 术语 或 外 来 词 的 时 候 ， 或 者 当 多 种 语言 或 方言 混在 一 起 的 时 候 。 


1.2. 1 不 规则 性 
形态 分 析 追 求 词 的 世界 的 一 般 性 和 抽象 性 。 对 给 定 的 语言 数据 的 快速 描述 不 一 定 是 终 


极 描述 ， 因 为 数据 可 能 是 不 精确 的 或 其 复杂 性 是 不 适当 的 ， 可 能 需要 更 好 的 表述 。 因 此 ， 


形态 模型 的 设计 原则 非常 重要 。 

在 阿拉 伯 语 中 ， 深 入 研究 在 屈折 变化 和 派生 中 起 作用 的 形态 过 程 ， 甚 至 所 谓 的 不 规则 
词 ， 对 精通 整个 形态 和 语音 系统 也 是 必要 的 。 采 用 适当 的 抽象 ， 不 规则 的 形态 可 被 看 作 只 
是 在 内 在 的 或 典型 的 规则 词 形 上 强制 服从 某 些 语音 的 扩充 规则 [15, 16]. 

f| 1-7 hl rOyth? lm Orh. lm Or OHdA. ` 1 4 1 4 

hal raaytihi? on arahu. lam ara »ahadan. "AT | E | st J 

whether you-saw+him? not-did I-see+him. not-did I-see anyone. 


在 例 1-7 E, raayti 是 主动 语 态 的 第 二 人 称 阴性 单数 完成 态 动词 ， 是 有 词根 ry 的 词 
ra»à "to see” 的 一 个 变化 形式 。 其 引用 形式 的 典型 规范 模式 是 fasal, iE nf 1-6 的 词 
qara, 或 者 ， 我 们 也 可 假设 rea 的 模式 是 faa, APR HRA MRS 
上 下 文 应 进行 特定 的 语音 变化 ， 导 致 raea (BY faa) 而 不 是 raay (KW faal), F 
形式 的 这 种 变化 可 能 对 整个 词 的 形态 行为 产生 影响 。 

K 1-1 显示 了 朴素 的 阿拉 伯 语 的 词 结构 模型 和 Smrž [12]. Smrž, Bielicky [17] 提出 


表 1-1 利用 形 音 模板 发 现 阿拉 伯 语 形态 的 规则 性 。 统 一 的 结构 操作 适用 于 多 种 词 干 。 表 的 行 中 ，9qara， 
"to read” 和 ra»à "to see” 及 其 屈折 变化 的 表层 形式 S 被 分 析 为 直接 的 1 和 形 音 的 M 模板 。 其 
中 连 字 符 标 记 了 结构 边界 ， 此 处 要 用 合并 规则 。 表 外 围 的 列 对 应 于 词典 中 声明 的 完成 态 (P) 和 
未 完成 态 (1) 的 词 干 ， 内 列 处 理 具 有 下 列 形态 句法 性 质 的 主动 态 动词 : | RER., SEAR, J 
祈 使 式 ; 1 第 一 人 称 、2 第 二 人 称 、3 第 三 人 称 ; M 阳 性 、F 阴性 ; S 单数 、P 复数 













II2MS ISI-S 


taqra»?u 2agrara ^aqra? 


P-2FS P-3MP 


gararti qara>u 













garaa 
fasal-a fa«al-ti fa«al-ü 
fasal-a facal-ti fa«al-ü 





ta- f «al-u ^a- f «al-a >a- f «al 










ta- f «al-u >a- f «al-a 









fa«à-ti 
faca facal-ti fataw 






raraytt 
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的 包含 形 音 合并 规则 和 模板 的 模型 之 间 的 差别 。 形 音 模 板 通过 组 织 词 干 模式 和 一 般 词 绥 来 
刻画 形态 过 程 ， 不 需要 词缀 任何 上 下 文 相关 的 变化 或 词 干 的 随意 修改 。 合 并 规则 非常 简 
洁 ， 确 保 这 样 的 结构 化 表示 可 精确 地 转化 为 语言 的 表层 形式 ,不管 是 书面 形式 还 是 语音 形 
式 。 应 用 这 些 合并 规则 与 除了 包含 在 模板 内 的 任何 语法 参数 或 信息 是 独立 并 且 无 关 的 。 因 
此 ， 大 多 数 形态 的 不 规则 性 被 成 功 去 除了 。 

与 此 相反 ， 有 些 不 规则 性 依附 于 具体 的 词 和 上 下 文 ， 无 法 用 通用 的 规则 来 说 明 。 韩 语 
的 不 规则 动词 有 不 少 这 样 的 例子 。 

韩语 对 语法 词素 的 选择 有 很 多 例外 。 在 其 他 的 黏着 语 中 很 难 找到 不 规则 屈折 变化 的 例 
f: 日 语 中 只 有 两 个 不 规则 动词 [18], F=RPRA1 [19]。 这 些 语言 中 有 大 量 的 形 
态 变 化 ， 可 用 精确 的 语音 规则 加 以 形式 化 。 韩 语 还 有 和 具体 词 相关 的 词 干 变化 。 和 很 多 其 
他 语言 一 样 , i-“be” 和 ha-“do” 有 独特 的 不 规则 词尾 。 其 他 的 不 规则 动词 可 由 处 于 词 干 
尾部 的 音 加 以 分 类 。 表 1-2 比较 了 在 同样 的 语音 条 件 下 主要 的 不 规则 动词 类 和 规则 动词 。 


X 1-2 韩语 主要 的 不 规则 动词 类 和 规则 动词 对 比 的 实例 


TEE ER 


4]- cip- 4] o] cip.e ‘pick’ 规则 

2. kip- NA ki. we ‘sew’ p- 不 规则 

ul. mit- 2o] mát.e *believe' 规则 

Al sit- A} o] sil.e ‘load’ t- 不 规则 

Al- ssis- 410] S8is.e ‘wash’ 规则 

ol. is- o] o i.e link s- 不 规则 

tg- nah- 号 中 nah.a ‘bear’ . 规则 

7 kka.mah- 7Huj kka.may ‘be black’ h- 不 规则 

2) =- chi. lu- Al el chi.le ‘pay’ 规则 u-ellipsis 

o] a. i. lu- o] & e i.lu.le ‘reach’ le- 规 则 

$e. hu.lu- ie] hul.le ‘flow’ tu- 不 规则 
1.2.2 Beste 


形态 歧义 是 指 词 形 在 其 语 篇 上 下 文 外 可 以 以 多 种 方式 理解 的 可 能 性 。 词 形 看 起 来 一 
样 ， 但 是 具有 不 同 的 功能 或 意义 的 词 称 为 同形 词 Chomonyms) 。 
歧义 存在 于 整个 形态 处 理 的 各 个 方面 ， 也 存在 于 整个 语言 处 理 中 。 但 是 ， 形 态 分 析 并 不 
需要 对 上 下 文中 的 词 进行 完全 消 战 ， 只 是 有 效 地 限制 一 个 给 定 词 形 的 可 能 解释 [20. 21]. 
在 韩语 中 ， 同 形 词 是 形态 分 析 中 间 题 很 多 的 地 方 之 一 ， 因 为 很 多 同形 词 是 常用 词 。 
dk 1-3 基于 不 同 词尾 的 行为 来 排列 同形 词 。 例 1-8 是 名 词 、 动 词 同 形 词 的 例子 。 
x 1-3 韩语 中 当 动 词 与 不 同 词尾 结合 时 产生 系统 性 的 同形 词 


us aX 
Ei mwut.ko xo mwut.e #2 mwut.un ‘bury’ 
iu mwut.ko # o] mwul.e e munul.un ‘ask’ 
zi mwul.ko #9 mwul.e EZ mwun ‘bite’ 
aa ket.ko Ao} ket.e az ket.un ‘roll up’ 
au ket.ko Bo} kel.e az kel.un ‘walk’ 
aux kel.ko ao kel.e a ken ‘hang’ 
Fal kwup.ko 3:9] kwup.e re kwup.un ‘be bent’ 
wre kwup.ko TA kwu. we Pe kwu.wun *bake' 
o] aat i.lu.ko o|e ej i.lu.le o] 娃 i.lun ‘reach’ 
oJzeir i.lu.ko 9) 2] il.le o|zE i.lun ‘say’ 
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fij 1-8 4 ‘orchid’ — Xt nan ‘orchid’ 
ir AL’ — Una T + -n (topic) 
tł ‘which flew’ — 时- nal- ‘fly’ + -n (relative, past) 
t4 ‘which got out’ +  tj- na- ‘get out’ + -n (relative, past) 


我 们 根据 标准 韩语 词典 考察 名 词 nan 的 歧义 : nan! "egg". nam? “revvolt”, nanë 
"section (in newspaper)", nan? “orchid”, “还 有 其 他 不 常用 的 意义 。 

阿拉 伯 语 是 在 形态 的 派生 和 届 折 变化 方面 都 很 丰富 的 语言 。 由 于 阿拉 伯 语 字体 通常 不 
编码 某 些 短 元 音 ， 还 省 略 可 精确 记录 语音 形式 的 某 些 变 音 符号 ， 其 形态 歧义 增加 了 不 少 。 
阿拉 伯 语 的 正字 法 把 一 些 词 形 缩写 在 一 起 。 阿 拉 伯 语 的 形态 消 歧 问题 不 但 包括 词 的 结构 部 
件 和 形态 句法 性 质 的 确定 〈 即 形态 标注 [22，23，24])， 也 包括 切 分 、 规 范 化 、 词 形 还 原 、 
词 干 化 、 变 音符 号 还 原 126, 27, 28]. 

正如 图 1-1 所 示 ， 在 言语 中 当 屈 折 变 化 的 句法 词 合并 在 一 起 的 时 候 ， 可 能 产生 另外 的 语 
首 和 书写 的 变化 。 在 焚 语 中 ， 这 样 的 一 条 谐音 规则 称 为 外 连 音 变 读 (sandhi) [29. 30], 在 
切 分 阶段 逆转 连 音 变 读 通 常 是 不 确定 的 ， 因 为 有 多 个 解决 方案 。 在 任何 语言 里 ， 切 分 决策 
可 能 对 重建 的 词 元 的 形态 句法 性 质 加 上 限制 ， 这 些 必须 在 进一步 的 处 理 中 保持 。 形 态 和 名 
法 间 的 紧密 结合 启发 人 们 提出 了 同时 进行 消 眉 而 不 是 顺序 地 做 [4]. 


dirasatu i " Cal)» 

diràsati i TEE 

dirasata i Ds dul yo 
muallim i $ yelas 
muallimi 7 S "e 
katabtum hà la A 

1Gr@u hu o cl >| 

grat hu o elal 

'ijrà'a hu o cl >| 

li "l^asafi li lli (J 1 A10sf 


mElmy 


ktbtmwhA 

-| IjrAWh 

jm] IjrA)h 

-| rjrA'h 

110sf 
图 1-1 阿拉 伯 语 中 谐音 的 复杂 词 元 化 和 规范 化 。 三 种 不 同 的 名 词 格 由 同一 个 词 形 (dirasati 
“my study” 与 mu«allimiya “my teacher") 表示 ， 但 是 原来 的 格 结尾 是 不 同 的 。 在 
katabtumüha “you-MASC-PL wrote them" 里 ， 当 切 分 时 ， 连 读 元 音 冯 被 丢弃 。 在 规范 
化 有 些 书 写 约定 时 ， 例 如 >i géra> “carrying out” 和 附着 的 hu “his” 保 持 格 结尾 之 间 的 

互相 作用 ,或 casa f “regret” We rdial Asp ial 站 “for” 的 合并 ， 必 须 加 以 特别 注意 


捷克 语 是 具有 高 度 屈折 变化 的 屈折 语 。 与 黏着 语 不 同 ， 届 折 词 素 经 常 同 时 表示 知 干 功 
能 ， 在 形式 和 功能 之 间 没 有 特别 的 一 一 对 应 关系 。 捷 殉 语 中 的 屈折 范式 (paradigm) (BH 
找 出 与 要 求 的 性 质 相 联系 的 词 形 的 方案 ) 有 很 多 种 ， 但 是 几乎 都 包含 非 唯一 的 形式 。 

K 1-4 列 出 了 几 个 常用 的 捷克 语词 的 范式 。 名 词 的 届 折 变化 范式 依赖 于 词 的 语法 上 的 
性 和 语音 结构 。 一 个 范式 中 的 个 别 形式 随 着 语法 的 数 和 格 而 变化 ， 这 些 是 只 能 在 词 使 用 的 
上 下 文中 才能 决定 的 自由 参数 。 

看 一 下 词 stavení “building” 的 形态 变化 ， 我 们 也 许 会 疑惑 ， 既 然 这 个 词 只 能 呈现 4 
种 不 同 的 词 形 ， 为 什么 还 要 区 别 它 所 有 的 格 呢 ? 格 系 统 的 细节 是 否 适当 ? 回答 是 肯定 的 ， 
因为 我 们 能 找到 导致 这 种 格 范畴 抽象 的 语言 学 证 据 。 仅 考虑 在 各 种 上 下 文中 代替 staveni 
的 同义词 ， 我 们 断定 内 在 的 系统 的 确 作 了 一 个 格 的 区 分 ， 但 是 不 一 定 以 词 的 形式 清晰 且 唯 
一 地 表达 。 


— 
male 
e 
一 小 
一 
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X 1-4 捷克 语词 dim “house”, budova “building”, stavaba “building”, stavení “building” 的 形态 范式 。 
尽管 它们 有 系统 性 歧义 ， 如 不 丢失 包含 其 他 地 方 的 所 有 不 同形 式 的 能 力 ， 屈 折 变 化 参数 的 空间 
无 法 约 简 : S 单数 、P 复数 ; 1 主格 、2 所 有 格 、3 与 格 、4 宾 格 、5 呼 格 、6 位 置 格 、7 工具 格 


阳性 非 人 称 阴 性 阴 性 中 性 
Sl düm budova stavba staveni 
S2 domu budovy stavby staveni 
S3 domu budové stavbé staveni 
S4 düm budovu stavbu staveni 
S5 dome budovo stavbo staveni 
S6 domu/domé budové stavbé staveni 
S7 domem budovon stavbou stavenim 
P1 domy budovy stavby staveni 
P2 domü budov staveb staveni 
P3 domtim budovam stavbám stavenim 
P4 domy budovy stavby staveni 
P5 domy budovy stavby staveni 
P6. domech budovách stavbách stavenich 
P7 domy budovami stavbami staveními 


有 些 词 或 词类 呈现 出 系统 性 的 同形 词 的 形态 现象 称 为 同 态 。 与 某 些 形 态 句 法 参数 相关 
的 中 性 化 (neutralization) 和 零 届 折 变 化 Cuninflectedness) 可 导致 同形 词 。 这 些 形 态 同 态 
可 由 上 下 文 要 求 讨 论 的 形态 句法 性 质 的 能 力 加 以 区 分 。 正 如 Baerman, Brown 和 Corbett 所 说 
[10, 32 M |. 

中 性 化 是 形态 中 表现 的 多 法 无 关 性 ， 而 零 属 折 变 化 是 形态 对 句法 上 相关 的 特征 的 不 
反应 。 

例如 ， 在 捷克 语 或 阿拉 伯 语 中 ， 句 法 上 要 求 第 一 人 称 阴 性 单数 人 称 代词 (等 价 于 
“I”) 是 合法 的 ， 尽 管 它 与 第 一 人 称 阳性 单数 同形 。 原 因 是 ， 对 人 称 范畴 的 其 他 值 ， 阳 性 
和 阴性 的 形式 是 不 同 的 ， 并 且 存 在 与 性 有 关 的 句法 依赖 关系 。 并 不 是 第 一 人 称 单数 代词 没 
有 性 ， 也 不 是 既 有 阳性 又 有 阴性 。. 我 们 只 是 在 这 里 看 到 了 和 零 屈 折 变 化 。 另 一 方面 ， 我 们 也 
许可 以 声称 在 英语 或 韩语 里 ， 如 果 性 范畴 存在 ， 那么 语法 上 是 中 性 化 的 ，he Ashe, him 
和 her、his 和 hers 的 细微 差别 是 纯 语义 的 。 

我 们 已 经 知道 了 范畴 和 同 态 的 概念 ， 那 么 什么 是 覆盖 一 种 语言 中 屈折 变化 多 样 性 的 形 
” 态 句 法 届 折 变化 参数 组 合 的 最 小 集合 呢 ? 为 多 种 语言 定义 一 个 内 在 的 形态 句法 性 质 的 联合 
系统 的 形态 模型 必须 相应 地 一 般 化 参数 空间 ， 并 中 性 化 任何 系统 的 无 效 结构 。 


1.2.3 能 产 性 


语言 中 词 的 总 数 是 有 限 的 还 是 无 限 的 ? 这 个 问题 直接 导致 了 两 种 处 理 语言 的 基本 方 
法 ， 正 如 索 绪 尔 对 语言 (angue) 和 言语 (parole) 的 区 分 或 乔 姆 斯 基 对 语言 能 力 和 运用 
的 二 分 所 概括 的 。 

一 种 观点 : 语言 可 被 视 为 说 出 的 或 写 出 GERD 的 所 有 言语 的 集合 。 这 个 理想 的 数据 
集 在 实践 中 可 由 语料库 来 近似 。 语 料 库 是 语言 数据 的 有 限 集合 ， 通 常 以 经 验方 法 来 研究 ， 
开发 语言 模型 的 时 候 可 进行 比较 。 | 

但 是 ， 如 果 我 们 把 语言 考虑 为 一 个 系统 ， 我 们 就 会 在 其 中 发 现 一 些 结构 手段 ， 例 如 递归 、 重 
复 、 复 合 ， 可 产生 (能力) 实在 言语 的 无 限 集合 。 这 种 一 般 的 能 力 对 形态 过 程 也 成 立 ， 称 为 形态 
能 产 性 [31, 32], 


32 | 
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我 们 把 语料库 中 发 现 的 词 形 的 集合 称 为 词汇 。 这 个 集合 的 成 员 称 为 词 型 ， 而 一 个 词 形 
的 每 次 原始 实例 称 为 词 例 。 

词 的 分 布 [33]， 或 语言 的 其 他 元 素 遵 从 “80/20 原则 ”， 也 称 为 “能 者 多 劳 ” 定 律 。 
就 是 说 一 个 给 定 的 语料库 中 最 常用 的 词 只 占 词 汇 表 中 很 少 的 词 型 ， 词 汇 表 中 的 其 他 词 在 语 
料 中 出 现 的 次 数 很 少 。 而 且 ， 当 语 料 增 大 时 ， 新 词 或 没 预 料 到 的 词 总 会 出 现 。 

在 捷克 语 中 ， 否 定 是 一 个 能 产 的 形态 操作 。 动 词 、 名 词 、 形 容 词 和 副词 可 加 上 前 缀 
ne- 以 定义 其 词法 概念 的 否定 。 在 例 1-9 "P, budeš “you will be” Œ byt "to be" 的 第 二 人 
PRE, nebudu "I will not be” 是 nebýt (bút 的 否定 ) 的 第 一 人 称 单 数 。 我 们 有 čist “to 
read", neéíst “not to read”, th A) WA BIER noviny nenoving 的 副词 短语 ， 一 般 表 达 “ 对 
报纸 漠不关心 ”: 

例 1-9 Budeš Gist ty noviny? Budeš je číst? Nebudu je číst. 

you-will read the newspaper? you-will it read? not-I-will it read. 

例 1-9 和 例 1-1, Bi) 1-6 的 意思 一 样 。 词 noviny“newspaper” 只 有 复数 形式 ， 表 示 一 
张 或 很 多 报纸 。 我 们 可 字面 上 把 noviny 翻译 为 novina “news” 的 复数 从 而 看 到 该 词 的 来 
源 ， 人 恰好 英语 中 也 类 似 。 

可 以 在 词典 中 包含 所 有 的 否定 词 形 ， 而 且 词 汇 的 总 数 仍 然 是 有 限 的 。 不 过 ， 通常 语言 
形态 系统 的 丰富 性 使 得 这 种 策略 一 点 也 不 实用 。 

大 多 数 语 言 包 含 允 许 其 结构 部 件 自由 重复 的 词 。 考 虑 捷克 语 中 与 “generation” 相 关 
的 前 级 pra-， 在 例 1-10 中 可 重复 或 不 可 重复 的 情况 : 

例 1-10 vnuk ‘grandson’ pravnuk ‘great-grandson’ 

prapra...vnuk ‘great-great-...grandson’ 


les ‘forest’ prales ‘jungle’, ‘virgin forest’ 
zdroj ‘source’ prazdroj ‘urquell’, ‘original source’ 
stary ‘old’ prastary ‘time-honored’, ‘dateless’ 


在 创造 性 的 语言 中 ， 如 博客 、 聊 天 、 富 有 情绪 的 非 正 式 交 流 ,， 重复 经 常 被 用 来 加 强 表 
达 的 强度 。 创 造 性 当然 比 能 产 性 走 得 更 远 [32]. 

我 们 给 出 一 个 例子 ， 其 中 创造 性 、 能 产 性 和 未 登录 词 都 很 好 地 融合 在 一 起 。 根 据 维基 
百科 ， 词 googol 是 造 出 来 的 词 ， 表 示 数 ”1 后 面 跟 了 100 4 0", m Google 公司 的 名 字 
Google 是 其 无 意 中 的 拼写 错误 。 尽 管 如 此 ， 这 两 个 词 都 成 功 地 进入 了 英语 词典 ， 而 在 此 
形态 的 能 产 性 开始 起 作用 ， 因 此 我 们 现在 有 动词 to google ， 名 词 googling， 其 至 googlish 
或 googleology| 34]. 

Google 这 个 词 也 被 其 他 语言 采纳 ， 每 种 语言 自己 的 形态 过 程 也 被 激发 。 在 捷克 语 中 ， 
人 们 说 googlovat, googlit "to google" BK vygooglovat, vygooglit "to google out”, 
googlovani“googling” 等 。 在 阿拉 伯 语 中 ， 上 面 两 个 词 被 写作 güğül “googol” Al gagil 
“Google”， 后 者 通过 内 部 届 折 变化 又 变 为 动词 gawgal "to google”， 好 像 有 一 个 真 的 词根 
gwol, Jf HL fü Bj i8] gawgalah “googling” hA TE. 


1.3 形态 模型 
有 很 多 方法 设计 并 实现 形态 模型 。 多 年 来 ， 计 算 语言 学 家 已 经 看 到 了 若干 形式 体系 和 
框架 的 发 展 ， 尤 其 是 多 种 不 同 表 达能 力 的 文法 ， 用 于 处 理 目 然 语 言 或 人 工 语言 的 系列 


问题 
多 种 领域 相关 的 程序 语言 也 被 发 明 出 来 ， 人 允许 我 们 直观 地 用 最 小 的 编程 量 来 实现 理论 
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问题 。 这 些 专 用 语言 通常 引 和 人 特殊 的 程序 记号 ， 用 某 些 受 限 的 计算 模型 加 以 解释 。 这 样 做 
的 动机 是 因为 当初 的 计算 资源 很 有 限 ， 而 要 解决 的 任务 发 要 求 很 高 ， 复 杂 度 很 大 。 当 然 也 
有 理论 的 动机 ， 如 找到 一 个 简单 、 精 确 且 一 般 的 模型 是 科学 抽象 的 追求 。 

也 有 很 多 方法 不 用 领域 相关 的 编程 ， 当 然 也 要 考虑 运行 时 性 能 和 计算 模型 本 身 的 效 
率 。 编 程 方法 和 设计 风格 的 选择 决定 这 些 模型 最 终 是 否 是 纯粹 、 直 观 、 充 分 、 完 备 、 可 重 
用 、 优 美 等 。 

现在 让 我 们 看 看 处 理 形态 最 著名 的 几 个 计算 方法 。 训 无 疑问 ， 这 种 分 类 肯定 不 是 排他 
的 ， 因 为 综合 的 形态 模型 及 其 应 用 能 合并 多 个 不 同 的 实现 方面 ， 见 下 面 的 讨论 。 


1.3.1 Bis 


形态 分 析 是 语言 的 词 形 和 相应 的 语言 学 描述 相 联 系 的 过 程 。 一 个 一 个 地 枚 举 这 些 联系 
的 形态 系统 没有 任何 的 一 般 化 手段 。 词 形 的 分 析 被 简化 为 在 词 表 、 词 典 或 数据 库 中 进行 字 
面 查 找 的 系统 也 同样 如 此 ， 除 非 系 统 是 根据 更 先进 的 语言 学 模型 建造 和 同步 发 展 的 。 

在 本 节 ， 将 词典 理解 为 一 种 数据 结构 ， 可 以 直接 得 到 一 些 预先 计算 的 结果 ， 也 即 词 的 
分 析 。 为 了 高 效 的 查找 ， 数 据 结构 可 以 被 优化 ， 结 果 也 可 以 共享 。 查找 操作 相对 简单 ， 通 
常 也 很 快 。 词 典 可 以 被 实现 为 表 、 二 叉 搜索 树 、trie H, MART. 

因为 词 形 和 其 期 望 的 描述 的 联系 集合 是 由 简单 的 枚 举 声明 的 ， 模 型 的 范围 是 有 限 的 ， 
语言 的 生成 潜力 没有 被 利用 。 开 发 并 且 验 证 联系 表 是 枯燥 的 、 易 错 的 ， 也 可 能 是 低 效 的 或 
不 精确 的 ， 除 非 数 据 是 从 大 而 可 靠 的 语言 资源 中 自动 检索 而 来 。 

尽管 如 此 ， 对 于 一 个 给 定 的 目的 ， 枚 举 模型 经 常 是 足够 的 ， 可 容易 地 处 理 例 外 ， 也 能 
实现 复杂 的 形态 分 析 。 例 如 ， 韩 语 基 于 词典 的 方法 L35] 依赖 于 含有 所 有 可 能 的 变 体 词素 
和 形态 变化 的 一 个 大 词典 。 不 过 ， 这 些 方法 不 允许 开发 可 重用 的 形态 规则 [36j。 

对 于 很 多 语言 ， 词 表 或 基于 词典 的 方法 在 许多 特定 的 实现 中 经 党 使用。 我 们 也 可 以 假 
设 ， 随 着 大 规模 在 线 数据 的 易 获 得 性 ， 目 前 抽取 词 形 的 高 覆盖 率 的 词汇 表 是 可 行 的 [37j。 
联系 的 标注 如 何 构建 、 有 多 精确 的 问题 仍然 存在 。 关 于 无 监督 学 习 和 形态 归纳 PRAT 
化 、 非 枚 举 模 型 的 方法 ) 的 参考 文献 在 本 草 后 面 描述 。 


1.3.2 有 限 状 态 形 态 


通过 有 限 状 态 形态 模型 ， 程 序 员 可 以 将 写 的 描述 直接 编译 为 有 限 状态 转录 机 。 两 个 最 
流行 的 工具 : XFST (施乐 有 限 状 态 工 具 ) [9] 和 LexTools [11]9 都 是 这 类 ， 文 献 中 引 
用 不 少 ， 多 种 语言 的 样本 实现 也 可 网 上 获得 。 

有 限 状 态 转录 机 是 扩充 有 限 状态 自动 机 能 力 的 计算 手段 ， 由 有 限 个 节点 构成 ， 贡 点 之 
间 有 有 向 边 ， 边 上 标 了 一 对 输入 、 输 出 符号 。 在 这 个 网 络 或 图 里 ， 节 点 也 称 作 状态 ， 边 也 
称 作 弧 。 沿 着 弧 从 初 态 集 走 到 终 态 集 等 价 于 读 入 遇 到 的 输入 符号 序列 并 写 出 相应 的 输出 符 
号 序列 。 

转录 机 接受 的 所 有 F 能 的 序列 集合 称 作 输入 语言 ， 输 出 的 所 有 可 能 的 序列 集合 称 作答 
出 语言 。 例 如 ， 一 个 有 限 状态 转录 机 可 把 无 限 的 正规 语言 vnuk, pravnuk, prapravnuk, = 
翻译 为 无 限 的 正规 语言 grandson, great-grandson, great-great-grandson, ，…， 

有 限 状 态 转录 机 的 作用 是 描述 并 且 计 算 集合 之 间 的 正规 关系 (regular relation) (38, 


oO 32S, http://www. fsmbook. com/ 和 http: //compling. ai. uiuc. edu/catms/。 
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9, 11]9 ， 也 即 转录 机 说 明 输 入 、 输 出 语言 间 的 关系 。 事 实 上 ， 可 以 逆转 关系 的 定义 域 和 
值 域 ， 也 即 输入 、 输 出 。 在 有 限 状态 计算 形态 学 的 术语 中 ,通常 把 输入 词 形 称 为 表层 串 
(surface string)， 输 出 描述 称 为 词法 串 (lexical string) ， 如 果 转 录 机 是 用 来 做 形态 分 析 ， 
或 者 反 过 来 ， 用 来 做 形态 生成 。 

我 们 为 词 形 及 其 部 件 给 出 的 语言 学 描述 可 以 是 任意 的 ， 并 且 显 然 依 赖 于 处 理 的 语言 
采用 的 形态 理论 。 例 如 ， 在 英语 中 ， 一 个 有 限 状态 转录 机 可 将 表层 串 children 分 析 为 词法 
FB child [十 plural], 或 者 ， 从 woman [十 plural] 生成 women。 参 见 例 1-8 或 图 1-1 的 其 
他 输入 、 输 出 串 的 例子 。 

语言 上 的 关系 也 可 以 被 视 为 函数 。 假 设 我 们 有 关系 R, M [E] RRARASHED E 
的 所 有 序列 的 集合 ， 那 么 R 的 定义 域 和 值 域 都 是 [22] 的 子 集 。 我 们 可 把 R 看 作 是 从 输 
入 串 到 输出 串 集 的 映射 。 用 如 下 的 公式 表示 ， 其 中 [22] 等 于 String: 

RIDE] LAP Rt: String: — {String} Gi D 

有 限 状 态 转 录 机 的 代数 性 质 已 经 被 深入 研究 ， 其 模型 已 被 证 明 对 其 他 问题 也 很 适用 
[9]。 用 来 把 表层 串 (而 非 词法 串 ) 的 联系 编码 为 语音 和 形态 的 重 写 规则 (rewrite rules) 
早 就 见于 两 层 形态 模型 | 39]， 后 来 还 在 形态 和 人 句法 的 计算 方法 [11] 和 形态 和 计算 [40] 
中 有 进一步 的 研究 。 | 

人 类 语言 中 的 形态 操作 和 过 程 在 大 多 数 情 况 下 能 用 有 限 状 态 的 形式 进行 充分 的 描述 。 
Beesley 和 Karttumen [9 ] 强调 把 转录 机 串联 起 来 作为 把 表层 和 词法 语言 分 解 为 更 简单 的 
模型 的 方法 ， 并 且 提 出 了 一 个 不 太 系 统 的 编译 -替换 (compile-replace) 转录 操作 以 处 理 形 
态 中 的 非 拼 接 现象 。 但 是 ，Roark 和 Sproat [11] 论证 了 用 转录 机 的 复合 来 构造 一 般 的 形 
态 模型 是 更 加 纯粹 通用 的 做 法 。 

形态 的 有 限 状 态 模型 的 一 个 理论 限制 是 描述 硅 干 人 类 语言 中 的 词 及 其 要 系 的 重复 问题 
(例如 表示 复数 )。 只 包含 具有 形 如 X41"* 的 词 的 语言 ,其 中 4 是 字母 表 的 任意 符号 序列 ， 
&E (1,2,…》 是 任意 自然 数 ， 表 示 入 在 本 身后 的 重复 次 数 ， 不 是 一 个 正规 语言 ， 甚 至 不 是 
一 个 上 下 文 无 关 语 言 。 不 限定 长 度 的 串 的 重复 ， 因 此 不 是 一 个 正规 语言 操作 。Roark 和 
Sproat 讨论 了 在 有 限 状 态 转录 机 的 框架 下 如 何 处 理 这 个 问题 [11]. 

有 限 状 态 技术 能 直接 地 用 于 处 理 孤 立 语 和 黏着 语 的 形态 建 模 。 韩 语 的 有 限 状 态 模 型 由 
Kim 等 [41], Lee 和 Rim [42], Han [43] 等 讨论 ， 仅 举 几 例 。 在 有 限 状 态 框 架 下 处 理 
非 拼 接 的 形态 ， 特 别 参见 Kay [44]. Beesley [45], Kiraz L46]， 以 及 Habash, Rambow 
和 Kiraz [47]。 如 要 比较 捷克 语 的 丰富 形态 的 有 限 状态 模型 ， 可 参考 Skoumalova [48] 
或 Sedlacek 和 Smrž [49]. 

实现 一 个 精细 的 有 限 状 态 形态 模型 要 求 仔 细 调 试 词典 、 重 写 规 则 和 其 他 部 件 ， 而 扩充 
代码 可 能 带 来 不 可 预料 的 交叉 影响 ， 正 如 Oazer 指出 的 [50]。 上 面 所 述 的 方便 的 描述 语 
言 是 必要 的 ， 因 为 直接 对 有 限 状 态 转 录 机 进行 编码 是 极其 繁重 、 吻 错 、 难 懂 的 。 

大 多 数 程序 语言 都 以 支持 正则 表达 式 匹 配 或 替换 的 方式 提供 了 有 限 状 态 工具 。 这 些 不 
一 定 是 开发 完整 的 形态 分 析 占 或 自然 语言 产生 需 的 最 终 选 择 ， 然 而 的 确 很 适宜 开发 词 切 分 
程序 、 形 态 猜测 程序 ， 可 对 完整 的 形态 分 析 中 遇 到 的 正确 形成 的 、 却 不 能 找到 其 对 应 词 条 
的 词 的 结构 提出 建议 [9]. 


日 ”正规 关系 和 正规 语言 在 结构 上 被 有 限 内 存 所 限 (例如 : 可 能 出 现 的 有 限 的 配置 集 )。 与 正规 语言 不 一 样 的 是 ， 
通常 情况 下 正规 关系 的 交集 可 能 产生 非 正 规 的 结果 [38]. 


ply Guo 13 


1.3.3 基于 合 一 的 形态 

基于 合 一 的 形态 分 析 是 受 旨 在 提供 人 类 语言 的 完整 语言 描述 的 各 种 形式 的 语言 学 框 染 
(尤其 是 中 心 词 驱动 的 短语 结构 文法 (Head-driven Phrase Structure Grammar, HPSG) 
[51] 以 及 词法 知识 表示 语言 的 开发 〈 尤 其 是 DATR [52] 的 启发 而 提出 。 这 些 形式 体 
系 的 概念 和 方法 经 常 和 逻辑 程序 设计 紧密 联系 在 一 起 。 在 Erjavec [53] 的 优秀 论文 中 ， 
科学 背景 得 到 了 深入 而 广泛 的 讨论 ， 参 见 Carpenter [54] 和 Shieber [55] 的 专著 。 

在 有 限 状 态 形态 模型 中 ， 表 层 和 词 形 都 是 原子 符号 的 非 结 构 串 。 在 高 级 体系 中 ， 语 言 
信息 由 更 适当 的 数据 结构 所 表达 ， 这 种 结构 可 以 包含 更 复杂 的 值 ， 必 要 时 可 以 散 套 。 因 此 
形态 分 析 P 把 线性 形式 @ 和 结构 化 内 容 y 联系 起 来 ， 比 较 (1. 1): 

P::6-— (iy) PP::form-> {content} (1.2) 

Erjavec [53] 论证 ， 在 形态 建 模 中 ， 词 形 最 适宜 用 正则 表达 式 描述 ， 而 语言 内 容 最 适 
宜 用 类 型 特征 结构 (typed feature structure) 来 摘 述 。 特 征 结构 可 被 视 为 有 癌 无 环 图 。 特 
征 结构 中 的 节点 由 多 个 属性 组 成 ， 而 属性 值 又 可 以 是 特征 结构 。 节 点 具有 类 型 ， 原子 值 是 
由 类 型 区 分 的 无 属性 节点 。 为 了 避免 每 个 地 方 都 用 唯一 值 的 实例 ， 可 引入 指针 。 特 征 结构 
通常 可 显示 为 “属性 - 值 ” 和 矩阵 或 舱 套 的 符号 表达 式 。 

特征 结构 可 通过 合 一 操作 合并 成 更 详细 的 特征 结构 。 合 一 操作 也 可 能 失败 ， 这 通常 意 
味 着 其 信息 不 兼容 。 依 赖 于 处 理 逻 辑 ， 合 一 可 以 是 单调 的 〈 信 息 保 持 )， 也 可 人 允许 缺 省 值 
的 继承 或 重 写 。 不 管 是 哪 一 种 情况 ， 模 型 中 的 信息 可 通过 定义 在 特征 结构 类 型 上 的 继承 体 
系 高 效 地 共享 和 重用 。 

这 种 形态 模型 典型 地 被 形式 化 为 逻辑 程序 ， 用 合 一 来 解决 模型 引入 的 限制 。 这 种 方法 
的 优点 是 包含 更 好 的 抽象 能 力 ， 以 开发 形态 文法 ， 同 时 消除 元 余 信 息 。 

然而 ， 用 DATR 实现 的 形态 模型 在 某 些 假设 下 ， 可 被 转化 为 有 限 状 态 机 ， 因 此 在 形 
式 上 它们 在 描述 形态 现象 上 是 等 价 的 [11]。 有 趣 的 是 ,一 层 语音 模型 [56] 把 语音 限制 
描述 为 逻辑 表达 式 ， 而 逻辑 表达 式 能 被 编译 为 有 限 状 态 自动 机 ， 该 自动 机 可 和 形态 转录 机 
求 交 集 ， 排 除 造 成 干扰 的 语音 上 无 效 的 表层 串 [参见 57，53j。 

基于 合 一 的 模型 已 经 在 很 多 语言 实现 ， 如 俄语 [58]、 捷 克 语 [59]、 斯 洛 文 尼 亚 语 
[53]、 波 斯 语 Leol], WARE [61]、 阿 拉 伯 语 [62，63] 等 。 有 些 依赖 于 DATR， 有 些 
采用 、 改 写 或 开发 其 他 合 一 引擎 。 


1.3.4 BARES 


这 类 形态 模型 不 但 包括 那些 遵循 函数 式 形态 [64]. 的 方法 学 形态 模型 ， 也 包括 相关 的 
如 文法 框架 的 形态 资源 文法 [65]。 函 数 式 形态 用 函数 式 编程 和 类 型 论 的 原理 来 定义 模型 ， 
把 形态 操作 和 过 程 看 作 纯 数学 函数 ， 并 把 模型 的 语言 学 和 抽象 元 素 组 织 为 值 的 不 同类 型 和 
类 型 的 类 。 

虽然 函数 式 形态 不 限于 为 人 类 语言 的 特别 形态 类 型 建 模 ， 但 它 尤 其 适用 于 届 折 语 。 语 
言 学 概念 ， 如 范式 、 规 则 和 例外 、 文 法 范畴 和 参数 、 词 、 语 素 、 形 元 等 可 用 这 种 方法 直观 
且 简 洁 地 描述 。 通 过 计算 设 定 可 以 精确 而 优美 地 设计 一 个 形态 系统 ， 支 持 子 问题 的 逻辑 分 
解 ， 通 过 强 类 型 检查 强制 一 个 程序 的 语义 结构 。 

函数 式 形态 的 实现 一 般 被 作为 程序 库 重 用 ， 可 处 理 语 言 的 完整 形态 ， 也 可 集成 到 各 类 应 
用 。 形 态 分 析 只 是 系统 的 一 种 用 法 ， 其 他 如 形态 生成 、 词 典 浏览 等 。 紧 接着 分 析 式 A. 2)， 
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我 们 可 将 屈折 变化 TZ. RED AEE C 描述 为 这 些 通用 类 型 


I::lexeme--(| parameter) — (1 form) CE 3) 
D::lexeme— (parameter) — | lexeme) EL. 4) 
L: content> | lexeme] (1. 5) 


图 数 式 形态 模型 可 以 在 必要 时 编译 成 有 限 状 态 转 录 机 ， 也 可 以 交互 地 解释 执行 。 模 型 
的 计算 可 利用 惰性 计算 ， 并 且 采 用 其 他 高 效 分 析 、 查 找 等 方法 CAL 66, 12]. 

许多 函数 式 形态 实现 散人 入 在 通用 的 程序 语言 中 ， 采 用 高 级 编程 技术 ， 从 而 可 给 程序 员 
更 多 目 由 ， 并 且 人 允许 他 们 开发 真实 世界 的 完整 应 用 。 焚 语 形态 的 禅 工 具 包 [67.68] 使 用 
OCaml 书写 。 它 影响 了 用 Haskell 的 函数 式 形态 框架 [64]， 该 框架 已 经 实现 了 拉丁 语 、 
瑞典 语 、 西 班 牙 语 、 乌 尔 都 语 [69] 和 其 他 语言 的 形态 分 析 。 

在 Haskell 中 ， 开 发 者 可 利用 其 语法 灵活 性 ， 设 计 用 来 处 理 给 定 问题 的 函数 结构 的 记 
号 体系 。 这 个 体系 构成 了 所 谓 的 领域 相关 的 艇 入 式 语 言 ， 使 得 编程 更 有 趣 。 图 1-2 解释 了 
阿拉 伯 语 形态 的 ElixirFM 实现 [12, 17]， 定 义 了 词 的 结构 和 词典 。 尽 管 词 条 显得 信息 量 
多 ,但 其 格式 非常 类 似 于 纸 质 词典 。 二 | 、| 二 、|< 之 类 的 运算 符 和 verb 之 类 的 标签 就 
是 中 缀 函数 ，FaCY、FCI、At 之 类 的 模式 和 词缀 是 数据 构造 子 。 


I> "dry" «lI 
FaCY i [ "know", "notice" ] 
'imperf' FCI, 
FACY 1 "flatter", "deceive" ], 
HaFCY "inform", "let know" ], 
IK. mp aE o» FEL e " dy* 'adj' [ “agnostic? .], 4 
FICAL [« aT : : "knowledge", "knowing" ], 
MuFACY |« aT j i "flattery" ] 
“plural ' MuFACY |< At, 
FACI 'adj' [ "aware", "knowing" ] ] 


know, notice I (i) dard .¢4> knowledge, knowing dirüyah Ul 
flatter, deceive II dara gj flattery mudarah 3\,\1. 
inform, let know IV :adra 5 y (mudarayàt cV jl) 





agnostic la~adriy 1 ol aware, knowing dàrin jl» 


图 1-2 ElixirFM iJ— mR RAE. REAR dr y 下 面 的 词 条 源 代 
码 以 等 宽 字 体 显示 。 注 意 定制 记号 、 声 明 的 精简 性 和 大 信息 量 


即使 没有 通用 程序 语言 提供 的 多 选择 ， 函 数 式 形态 模型 也 能 获得 高 度 抽 象 。 文 法 框架 
的 形态 文法 [65] 可 用 语言 的 句法 和 语义 结构 来 扩充 。 文 法 框架 本 身 支 持 多 语言 ， 十 几 种 
语言 的 模型 已 可 作为 开源 软件 获得 L70, 71]. 

OpenCCG 项 目的 文法 [72] 也 可 被 视 为 渔 数 式 模型 。 该 形式 体系 区 分 特征 、 范 上 畴 、 
世系 的 声明 ， 提 供 类 似 类 型 系统 的 手段 以 表示 结构 值 和 继承 体系 。 文 法 非常 倚重 这 个 功能 
定义 以 参数 化 宏 来 最 小 化 模型 的 元 余 性 ， 并 做 出 要 求 的 一 般 化 。 源 代码 的 宏 扩 展 和 内 联 函 
数 类 似 。 文 法 的 原始 文本 被 简化 为 描述 词 形 及 其 形态 句法 和 词法 性 质 的 联系 。 


1.3.5 形态 归纳 
迄今 为 止 ， 我 们 一 直 在 假设 我 们 知道 在 找 什 么 的 基础 上 找 出 多 种 语言 中 词 的 结构 。 我 
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们 还 没有 考虑 在 没有 人 干预 的 情形 下 〈 即 以 无 监督 或 半 监 督 的 方式 ) 发 现 并 归纳 词 的 结 
构 。 这 种 方法 的 动机 是 ， 对 于 很 多 语言 ， 我 们 可 能 无 法 得 到 足够 的 语言 学 专业 知识 ， 满 足 
某 种 目的 的 实现 可 能 根本 不 存在 。 形 态 和 词法 信息 的 自动 获取 ， 即 使 不 很 完美 ， 也 可 以 用 
来 初始 化 或 改进 经 典 的 形态 模型 。 

让 我 们 简略 地 看 一 下 该 领域 的 研究 方向 。 在 Hammarstóm [73] 和 Goldsmith [74] 
的 研究 中 ， 详 细 地 综述 了 形态 的 无 监督 学 习 的 文献 。 Hammarstom 把 多 种 方法 划分 为 三 
组 。 有 些 工 作 比 较 词 ， 并 根据 由 各 种 各 样 的 韵律 学 而 获得 的 相似 性 进行 聚 类 [75, 76, 
77, 78); 有些 试 图 识别 词 的 显著 特征 ， 使 之 和 不 相关 的 词 区 分 开 来 。 大 部 分 发 表 的 方 
法 把 形态 归纳 的 问题 视 为 词 边 界 和 词素 边界 检查 ， 有 了 时 也 自动 获取 词典 及 其 范式 [79， 
80, 81, 82, 8312. 

从 词 形 及 其 上 下 文中 推断 出 词 结构 有 多 个 挑战 性 的 难点 ， 如 形态 的 歧义 [76] 和 不 规 
WHE [75]、 书 写 和 语音 的 变化 [85]， 以 及 非 线 性 形态 过 程 L86, 87]. 

为 了 改进 统计 推理 的 性 能 ，Snyder 和 Barzilay [88] 提出 了 多 种 语言 的 并 行 形态 学 
习 ， 从 而 导致 了 抽象 词素 的 发 现 。Poon、Cherry 和 Toutanova [89] 的 判别 性 对 数 线性 模 
型 在 进行 切 分 决策 时 ， 通 过 采用 交叉 的 上 下 文 特征 提高 了 其 一 般 化 能 力 [参见 90] 。 


1.4 总 结 


本 章 中 ， 我们 认识 到 形态 可 从 相对 的 观点 进行 研究 : 一 种 观点 是 通过 词 的 构成 找 出 词 
的 结构 化 部 件 ， 另 一 种 是 句法 驱动 的 观点 ， 其 中 词 的 功能 才 是 关注 的 焦点 。 一 种 观点 重视 
形态 分 析 ， 男 一 种 关注 形态 生成 。 一 种 强调 人 工 的 形态 框架 ， 为 一 种 注重 无 监督 形态 归纳 
系统 。 男 外 ， 其 他 问题 包括 形态 模型 的 实现 的 优 劣 和 难 易 。 

我 们 把 形态 分 析 描 述 为 从 符号 的 线性 序列 中 得 出 结构 化 信息 的 形式 过 程 ， 其 中 存在 此 
义 ， 而 且 可 能 有 多 种 解释 。 

我 们 探索 了 不 同类 型 语言 的 有 趣 的 形态 现象 ， 也 对 多 语言 处 理 和 模型 开发 给 出 者 干 
提示 。 

我 们 看 到 在 韩语 中 ， 语 音 规则 调节 的 黏着 过 程 是 一 种 主导 的 形态 过 程 。 一 种 有 效 的 词 
分 解 模型 可 工作 于 词素 层次 ， 而 不 管 词素 是 词法 的 还 是 语法 的 。 

在 捷克 语 和 阿拉 伯 语 等 届 折 语 中 ， 有 复杂 的 屈折 变化 和 派生 变化 参数 ， 以 及 词法 相关 
的 词 二 变形。 分 解 的 方法 不 太 有 有 用。 形态 最 好 通过 范式 来 描述 ， 把 词 可 能 的 形式 和 其 相应 
的 性 质 联系 起 来 。 

我 们 讨论 了 用 现代 编程 技术 实现 以 上 这 些 模 型 的 多 种 方法 。 
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Multilingual Natural Language Processing Applications; From Theory to Practice 


找 出 文档 的 结构 





Dilek Hakkani-Tiir, GokhanTur, Benoit Favre, Elizabeth Shriberg 


2.1 概述 


在 人 类 语言 中 ， 词 和 句子 一 般 会 具有 结构 ,. 它们 并 不 随机 出 现 。 例 如 ， 词 可 以 组 成 句 
于 一 一 一 个 具有 完整 意义 的 语法 单元 ， 如 陈述 、 请 求 、 命 令 和 等。 同样， 在 书写 文本 中 ， 句 
子 可 以 组 成 段落 一 一 一 个 关于 某 个 观点 或 想法 的 自我 包含 的 语 篇 单元 。 通 过 显 式 地 使 用 
“因此 ”这 样 的 连词 ， 句 子 之 间 可 以 互相 关联 

自动 提取 文档 结构 对 随后 的 自然 语言 处 理 (Natural Language Processing, NLP) ff 
务 很 有 和 帮助。 例如， 句法 分 析 、 机 器 翻译 和 语义 角色 标注 均 使 用 句子 作为 基本 处 理 单元 
[1，2j。 句 子 边 界 标 注 对 提高 人 类 理解 自动 语音 识别 (Automatic Speech Recognition, 
ASR) 系统 的 输出 有 很 大 的 帮助 。 另 外 ， 将 输入 文本 或 对 话 按照 主题 分 割 成 块 也 可 以 使 数 
据 的 组 织 与 索引 变 得 更 好 。 人 例如， 与 特定 主题 相关 的 片段 可 以 从 长 对 话 中 提取 。 同 样 ， 属 
于 相同 主题 的 文章 可 以 归 类 并 做 进一步 的 处 理 。 由 于 书写 与 口头 信息 的 负载 问题 日 益 增 
加 ， 在 大 多 数 音频 与 语言 处 理应 用 中 ， 提 取 文 本 以 及 音频 文档 的 结构 是 极其 有 意义 甚至 有 
时 是 必 不 可 少 的 一 步 。 

在 此 ， 我 们 讨论 找 出 文本 结构 的 方法 。 为 简单 起 见 ， 只 有 与 主题 相关 的 句子 和 句子 组 
被 认为 是 结构 部 件 。 

在 本 章 中 ， 我 们 把 判断 一 个 给 定 字 符 序列 中 句子 开始 与 结束 的 任务 称 为 句子 边界 检测 
(sentence boundary detection) 。 类 人 伏地， 我们 把 判断 一 个 给 定 句子 序列 中 主题 开始 与 结束 
的 任务 称 为 主题 分 割 (topic segmentation) 。 我 们 用 统计 分 类 方法 进行 分 割 S ， 该 方法 在 
给 定 训 练 集 后 推断 出 句子 与 话题 边界 的 存在 与 否 。 这 些 方法 使 用 输入 数据 的 特征 来 进行 预 
测 。 特 征 包 含 句子 或 主题 边界 存在 与 否 的 证 据 ， 如 标点 符号 、 对 话 中 的 停顿 ， 以 及 文章 中 
的 新 词 。 特 征 是 分 类 方法 的 核心 ， 只 有 通过 特征 的 精心 设计 与 选择 ， 才 能 防止 过 拟 合 与 噪 
声 问 题 ， 进 而 取得 成 功 。 

应 该 注意 到 ， 尽 管 本 章 描述 的 统计 方法 与 语言 无 关 ， 但 每 一 种 语言 都 具有 挑战 性 。 例 
如 ， 在 处 理 中 文 文档 时 ， 因 为 中 文 词 一 般 不 用 空格 分 开 ， 处 理 器 先 需要 将 字 序 列 分 割 成 
词 。 同 样 地 ， 对 于 形态 丰富 的 语言 ， 需 要 分 析 词 的 结构 来 获得 额外 的 特征 。 这 些 一 般 都 是 
在 预 处 理 阶 段 完 成 的 ， 预 处 理 阶 段 会 确定 词 元 序列 。 词 元 可 以 是 词 或 者 比 词 小 的 单元 ， 由 
具体 的 任务 和 语言 决定 。 预 处 理 完成 以 后 ， 统 计算 法 将 应 用 到 词 元 序列 上 。 分 割 问题 的 目 
标 是 确定 两 个 词 元 间 的 边界 是 否 应 该 标记 为 句子 (或 主题 的 边界 。 

我 们 先 用 一 个 统一 的 框架 来 定义 句子 和 主题 分 割 任务 ， 并 描述 处 理 它 们 的 方法 ， 而 不 
是 单独 地 研究 句子 与 主题 分 割 的 方法 。 然 后 ， 我 们 描述 用 于 分 割 文本 和 语音 的 特征 。 


昌 ” 分 割 适用 于 两 类 任务 。 
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2.1.1 句子 边界 检测 


句子 边界 检测 (也 称 为 句子 分 割 ) 的 任务 是 自动 地 将 词 元 序列 分 割 成 句子 单元 。 在 
类 语 等 语言 的 书写 文本 中 ， 句 首 会 用 大 写字 母 进行 标记 ， 句 末 会 有 一 个 句点 (. ) 、 问 号 
(2), RE CD 或 者 其 他 类 型 的 标点 符号 。 但 是 ， 除 了 用 于 做 句子 边界 标记 外 ， 大 写字 
母 也 用 于 区 分 专 有 名 词 ， 名 点 也 用 于 缩写 之 中 ， 数 字 以 及 其 他 标点 符号 也 在 专 有 名 词 中 
使 用 。 例 如 ，Brown 语料库 中 10% 的 句点 用 于 诸如 “Dr. ”这 样 的 缩写 中 , “Dr. ”一 般 
是 doctor 或 driver 的 缩写 。 而 且 句 末 的 缩写 中 的 句点 同时 也 是 句子 的 结束 标记 。 例 如 ， 
考虑 如 下 句子:“I spoke with Dr. Smith. ”与 “My house is on Mountain Dr. ”在 第 一 
句子 中 ， 缩 写 “Dr. ”并 不 结束 一 个 句子 ， 但 在 第 二 个 句子 中 却 用 于 结束 句子 。 在 华 尔 
ft Af (Wall Street Journal) 语料库 中 ， 高 达 47 儿 的 句点 用 于 缩写 词 中 。 例 如 下 面 一 句 
从 OntoNotes 语料库 [6] 的 华尔街 日 报 部 分 找到 的 句子 中 ， 只 有 最 后 一 个 句点 用 于 结 
RAT: 

“This year has been difficult for both Hertz and Avis,” said Charles Finnie, car-rental 
industry analyst—yes, there is such a profession—at Alex. Brown & Sons. 

这 种 包含 其 他 句子 的 句子 并 不 少见 。 而 用 引号 括 起 来 的 句子 总 是 大 问题 ， 因 为 说 话 者 
说 出 了 多 个 句子， 而 且 引 号 内 的 句子 边界 也 用 同样 的 标点 符号 。 根 据 标点 符号 分 割 句子 结 
尾 的 自动 方法 可 能 会 导致 错误 的 分 割 。 更 严重 的 是 ,如果 前 面 的 句子 是 说 出 来 的 而 非 书写 
文本 ,韵律 提示 经 常用 来 标记 结构 。 

具有 歧义 的 简写 和 大 写 不 是 书写 文本 中 句子 分 割 的 唯一 困难 之 处 。“ 自 发 ”的 书写 文 
本 ， 如 短信 (Short Message Service, SMS) 或 即时 消息 (Instant Messaging，IM) ， 一 般 
没有 完整 的 语法 结构 而 且 会 错误 地 使 用 标点 符号 ， 甚 至 不 使 用 标点 符号 ， 这 使 得 句子 分 制 
更 具有 挑战 性 [7. 8]. 

同样 ， 如 果 用 来 分 割 成 句子 的 文本 从 目 动 系统 得 来 ， PITT 只 别 (Optical Char- 
acter Recognition, OCR) 或 ASR ix 2€ X ERU F7, fT EB ROE ROL RE Al Zia CARY 
系统 ， 寻 找 句 子 边界 的 任务 还 需要 处 理 这 些 系统 中 产生 的 错误 。 例 如 ，Taghva FA [9] 
EM OCR 系统 经 常 将 逗号 和 句号 混用 ， 这 会 产生 训 无 意义 的 句子 。ASR 转 写 一 般 缺 少 标 
点 符号 而 且 通 常 是 单字 符 ， 因 此 所 有 ASR 输出 的 单词 边界 都 可 能 是 句子 的 开始 或 结束 。 
Stevenson 与 Gaizauskas [10] 请 人 手工 分 割 无 标点 的 文本 ， 他 们 一 般 能 达到 80% 左 右 的 
Fl 值 ， 这 表示 该 任务 很 有 难度 。 在 这 种 输入 下 ， 和 句子 分 割 方法 一 般 假 设 每 两 个 词 元 间 都 
^ —^ AFF . 

另 一 方面 ， 对 于 会 话 、 文 本 或 多 方 会 议 包含 的 不 合 语法 或 不 流畅 的 句子 ， 大 多 数 情 况 
下 很 难 判 断 句 子 边界 在 哪里 。 由 语言 数据 联盟 (Linguistic Data Consortium, LDC) 发 行 
的 ICSI Meeting 语料库 [12] 中 ， 标 注 者 在 分 割 时 的 一 致 性 非常 低 。 以 “okay no prob- 
lem" 作为 例子 ， 很 难 判断 这 应 该 看 作 一 个 句子 还 是 两 个 句子 。 这 个 问题 可 以 重新 定义 为 
会 话 领域 内 的 对 话 行为 分 割 (dialog act segmentation) 任务 ， 因 为 有 许多 标注 标准 如 Dia- 
log Act Markup in Serveral Layers (DAMSL) [13] 或 Metting Recorder Dialog Act 
(MRDA) [14] 使 得 会 话 中 的 对 话 行为 有 精确 的 定义 。 根 据 这 些 标准 ， 例 铅 “okay no 
problem" 有 两 个 句子 单元 (或 对 话 行为 单元 ):“okay” 和 “no problem", 

在 大 多 数 依 赖 于 自动 句子 分 割 的 实际 应 用 中 ， 自 动 分 割 任务 可 以 根据 随后 任务 的 需要 
进行 重新 定义 。 例 如 ， 句 子 “I think so but you should also ask him” 是 一 个 合乎 语法 的 


HLF RIH hG H 23 


完整 句子 ,但 是 根据 DAMSL 5 MRDA 标准 ， 它 们 是 两 个 对 话 行为 标记 ， 一 个 是 肯定 ， 
一 个 是 建议 。 诸 如 说 话 者 角色 检测 或 情感 分 析 等 对 话 分 析 中 需要 这 种 改变 。 自 动 分 割 任务 
应 被 视 为 语义 边界 检测 任务 而 非 语法 边界 检测 任务 。 

编码 切换 ， 即 使 用 多 语言 说 话 人 所 说 的 多 种 语言 中 的 词 、 短 语 及 句子 ， 是 另 一 个 影响 
句子 特性 的 问题 。 例 如 ， 当 切换 到 另 一 个 语言 时 ， 作 者 可 以 保留 第 一 种 语言 的 标点 符号 使 
用 规则 ， 或 者 遵循 第 二 种 语言 的 格式 (例如 西班牙 语 在 问 句 前 面 需要 加 上 倒 问 号 )。 编 码 
转换 同样 影响 技术 文本 ， 在 技术 文本 中 标点 符号 的 意义 可 以 被 重新 定义 ， 如 统一 资源 定位 
f] (Uniform Resource Locator，URL) 、 编 程 语 言 和 数学 。 我 们 必须 通过 检测 和 分 析 这 些 
特殊 的 构造 才能 充分 地 处 理 技术 文本 。 

传统 基于 规则 的 句子 分 割 系统 分 割 结构 完好 的 文本 ， 依 赖 于 模式 来 识别 句子 可 能 的 结 
尾 ， 以 及 缩 略 词 表 来 进行 消 歧 L5, 15, 16, 17]。 例 如 ， 如 果 边 界 前 的 词 是 一 个 已 知 的 缩 
略 词 ， 比 如 “Mr. ”或 “Gov.”， 尽 管 有 些 句 点 有 例外 情况 ,但 在 该 位 置 并 不 分 割 文本 。 
虽然 规则 包含 了 绝 大 多 数 的 情况 ， 但 它们 不 能 处 理 未 知 的 缩写 词 ， 句子 末端 的 缩写 词 以 及 
输入 文本 中 的 错误 。 而 且 ， 当 文本 结构 并 不 完好 ， 例 如 论坛 、 聊 天 与 博客 的 文本 ， 或 完全 
没有 文字 信息 的 口语 输入 时 ， 规 则 不 够 鲁 棒 。 最 后 ， 每 一 种 语言 都 需要 一 套 特 殊 的 规则 。 

为 了 能 够 获得 比 基 于 规则 方法 更 好 的 结果 ， 句 子 分 割 被 看 作 分 类 问题 。 给 定 一 个 句子 
边界 标记 好 的 训练 数据 ， 我 们 可 以 训练 一 个 能 够 识别 它们 的 分 类 器 ， 将 在 2. 2 节 描 述 。 文 
本 中 的 句子 分 割 通常 使 用 标点 作为 分 割 符 ， 并 且 试 图 判断 它们 是 否 为 句子 开始 或 结束 。 另 
一 方面 ， 对 于 语音 输入 ， 所 有 词 边 界 都 应 考虑 为 可 能 的 句子 边界 。 


2. 1.2 主题 边界 检测 


主题 分 割 (有 时 称 为 篇 章 或 文本 分 割 )， 是 一 个 自动 将 文本 或 语音 流 分 割 成 主题 一 致 
的 块 的 任务 。 即 给 定 词 (书写 的 或 语音 的 ) 序列 ， 主 题 分 割 的 目标 是 寻找 主题 变化 的 边 
界 。 图 2-1 给 了 一 个 广播 新 闻 节 目 中 的 主题 变化 边界 的 例子 。 


Tens of thousands of people are homeless in northern China tonight after a powerful earthquake 


hit an earthquake registering 6. 2 on the Richter scale at least 47 people are dead. Few pictures are 


available from the region but we do know temperatures there will be very cold tonight - 7 degrees. 


— TOPIC CHANGE- Peace talks expected to resume on Monday in Belfast, Northern Ireland--- 





2-1 新 闻 文 章 中 的 主题 边界 示例 


主题 分 割 对 很 多 语言 理解 应 用 而 言 是 很 重要 的 任务 ， 如 信息 抽取 、 检 索 以 及 文本 摘 
要 。 例 如， 在 信息 抽取 中 ， 如 果 长 文档 可 以 被 分 隔 成 比较 短 的 、 主 题 一 致 的 片段 ， 那 么 接 
下 来 只 需要 抽取 与 用 户 查询 有 关 的 片段 。 

在 20 世纪 90 年代， 美国 国防 部 先进 研究 项 目 局 (Defense Advanced Research Project 
Agency，DARPA) 发 起 主题 检测 与 跟踪 (Topic Detection and Tracking. TDT) 计划 ， 
以 促进 查找 与 跟踪 广播 新 闻 报 道 流 中 新 主题 问题 的 研究 进展 [18]。TDT 的 任务 之 一 便 是 
将 新 闻 流 分 割 为 单个 报道 。TDT 建设 了 一 个 通用 的 测试 平台 ， 不 过 大 多 数 研究 人 员 也 使 
用 模拟 环境 ， 比 如 从 路 透 社 拼接 新 闻 报道 。 

对 于 多 方 会 议 ， 主 题 分 割 任务 从 篇 章 分 析 中 获得 灵感 。 对 于 官方 的 以 及 具有 良好 结构 
的 会 议 ， 主 题 根据 议 项 进行 分 割 ， 然 而 对 比较 随意 的 对 话 会 议 ， 主 题 边 界 并 不 明显 。 

主题 分 割 并 不 是 一 个 简单 的 问题 ， 因 为 许多 目 然 语言 相关 的 问题 需要 一 个 好 的 主题 类 
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别 及 粒度 的 定义 ,在 该 问题 上 人 类 的 一 致 性 并 不 是 很 高 。 例 如 ， 主 题 一 般 根 据 语义 呈现 
为 层次 结构 而 非 扁平 的 结构 。 当 一 个 关于 足球 的 句子 紧 跟 着 一 个 关于 棒球 的 句子 ， 有 的 
标注 者 会 认为 是 主题 改变 ， 而 有 的 标注 者 不 那么 认为 ， 他 们 认为 足球 和 棒球 都 属于 体育 
主题 。 这 也 是 一 个 粒度 区 分 的 例子 。 即 使 告诉 标注 者 要 将 文本 分 割 成 预定 义 数 目的 主 
题 ， 定 义 什 么 是 主题 也 是 一 个 很 难 的 问题 ， 因 为 它 随 着 语义 内 容 而 变化 。 尽 管 在 TDT 
语料库 中 取得 了 标注 者 间 的 高 度 一 致 性 (Cohen 的 kappa 值 为 0.7 一 0.9)， 该 语料库 包 
含 了 广播 新 闻 、 文 档 和 故事 ,但 新 闻 和 主题 一 般 具 有 相同 的 边界 。 对 于 多 方 会 议 的 主题 
分 割 ， 其 一 致 性 更 低 [20] Ckappa 值 一 般 为 0, 6 一 0. 7) 。 注 意 在 会 话语 音 中 ， 主 题 边 界 
并 不 绝对 。 例 如 在 一 个 多 方 会 议 中 ， 在 转换 到 另 一 个 主题 以 后 ， 一 个 参与 者 会 说 一 个 关 
于 先前 主题 的 句子 。 

在 文本 中 ， 主 题 边界 通常 使 用 特殊 的 分 割 提示 ， 如 标题 和 段落 分 隔 符 。 这 些 提示 在 语 
音 中 并 不 存在 。 但 是 ， 语 言 提供 了 其 他 的 提示 ， 比 如 停顿 间隔 和 说 话 人 切换 。 这 类 似 于 文 
本 和 语音 的 句子 分 割 的 差异 。2. 5 节 将 会 对 特征 类 型 进行 更 细致 的 分 析 。 


2. 2 


句子 和 主题 分 割 一 般 被 考虑 为 边界 分 类 问题 。 给 定 一 个 边界 候选 (对 句子 分 割 而 言 在 
两 个 词 元 之 间 ， 对 主题 分 隅 而 言 在 两 个 句子 之 间 )， 我 们 的 目标 是 判断 候选 是 不 是 一 个 真 
正 的 边界 (句子 或 主题 边界 )。 形 式 地 讲 ， 令 x€ X 为 候选 对 应 的 特征 向 量 ，yEY 为 候选 
预测 的 标记 。 标 记 y MAR b 和 5， 分 别 表示 边界 和 非 边 界 。 这 样 便 导 致 一 个 分 类 问题 
给 定 一 个 训练 例子 的 集合 {zx，y})wain， 寻 找 一 个 函数 ， 能 够 对 未 见 例 子 zumnseen 赋值 一 个 最 
精确 的 标签 y。 除 了 视 为 二 元 分 类 问题 ， 也 可 以 用 更 细 的 粒度 来 建 模 边界 类 型 。 例 如 ， 
Gillick[ 21] 建议 文本 的 句子 分 割 应 该 是 一 个 3 类 问题 : 句子 边界 伴随 缩写 词 记 为 6^. A 
伴随 记 为 内， 缩写 词 并 非 句子 边界 记 为 呈 。 类 似 地 ， 对 于 口语 ， 也 可 以 视 为 3 类 问题 : JE 
边界 282， 陈述 边界 b 以 及 疑问 边界 b., 

特征 可 以 是 : 候选 边界 周围 存在 特定 的 词 n 元 组 、 在 文本 引号 中 的 指示 、 先 前 词 元 在 
缩写 词 表 中 的 指示 等 ; 持续 间隔 、 语 调 、 能 量 或 者 其 他 语音 中 持续 时 间 相 关 的 特征 。2. 5 
节 中 有 更 多 对 特征 的 讨论 。 

对 于 句子 或 主题 的 分 割 ， 问 题 定义 为 寻找 最 可 能 的 句子 或 主题 边界 。 人 句子 分 割 的 自然 
单位 是 词 ， 而 对 主题 分 割 而 言 是 句子 ， 因 为 我 们 通常 假设 一 个 句子 中 的 主题 不 变 S 。 然 后 
词 或 句子 可 组 织 成 属于 句子 或 主题 的 一 个 连续 块 ， 即 将 词 或 句子 的 边界 分 类 为 句子 或 主题 
的 边界 与 非 边 界 。 每 个 潜在 的 边界 i 都 可 以 进行 分 类 (局 部 模型 )， 目 标 是 对 每 个 例子 x. 
估计 最 可 能 的 边界 类 型 y;: 

$c argmexF (yi | ai) (2.1) 


这 里 ，^ 表 示 估 计 的 类 别 ， 没 有 ^ 的 变量 表示 可 能 的 类 别 。 在 这 个 公式 中 ， 对 每 个 例子 
单独 指定 类 别 ， 因 此 决策 是 局 部 的 。 然 而 ， 连 续 的 边界 类 型 存在 相互 关联 。 例 如 ， 在 新 闻 
广播 语言 中 ， 一 个 词 形 成 句子 ， 进 而 产生 两 个 连续 的 边界 ， 这 种 情况 是 很 少见 的 。 在 局 部 
模型 中 ， 可 以 从 候选 边界 附近 的 实例 上 下 文中 抽取 特征 来 建 模 这 种 依赖 性 。 也 可 以 将 候选 
边界 看 作 一 个 序列 ， 给 定 候选 例子 X=zl，…，xzn， 搜 索 可 以 最 大 化 概率 的 边界 类 型 序列 


o ”同样 ， 对 于 主题 分 割 ， 有 时 假设 主题 仅 在 段落 边界 上 改变 [22]. 
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Y= argmaxP CY | XD (2:2) 


在 下 面 的 讨论 中 ， 我 们 将 方法 归 类 到 局 部 以 及 序列 分 类 这 两 类 。 另 一 种 分 类 方法 是 按 
照 机 需 学 习 算 法 进行 分 类 : 生成 性 和 判别 性 。 生 成 序列 模型 估计 观察 值 PCX，Y) (如 词 、 
标点 ) 和 标记 (句子 边界 、 主 题 边 界 ) 的 联合 概率 ， 这 一 般 需 要 特定 的 假设 (如 ， 使 用 回 
退 来 考虑 未 知事 件 ) 以 及 良好 的 泛 化 能 力 。 另 一 方面 ， 判 别 性 序列 模型 主要 关注 能 区 分 实 
例 标 记 的 特征 。 

这 些 方法 (下 一 节 中 描述 ) 可 以 同样 地 用 于 文本 或 者 与 口语 的 句子 和 主题 分 割 中 ,但 是 有 
一 个 区 别 : 在 文本 中 ， 所 有 不 包含 潜在 结束 句子 标记 符 ( 句 点、 问号 、 叹 号 ) 的 边界 类 别 被 预 
先 设 定 为 非 句子 或 非 主 题 边界 类 型 ， 但 是 在 语音 中 ， 一 般 要 考虑 所 有 相 邻 词 元 间 的 边界 。 


2.2.1 生成 序列 分 类 方法 


主题 与 句子 分 割 中 最 常 使 用 的 生成 序列 分 类 方法 是 隐 马 尔 可 夫 模 型 (Hidden Markov 
Model, HMM), xt (2.2) 的 概率 可 以 通过 贝 叶 斯 公式 重 写 如 下 : 


Y = argmaxP(Y | X) = iE SCA YF) _ argmaxP ( X | Y) PCY) (2. 3) 
Y Y POX) Y 


分 母 中 的 P(X) 可 以 去 掉 ， 因 为 对 于 不 同 的 Y， 它 的 值 不 变 ， 因 此 不 会 改变 结果 。P(X|Y) 
和 P(Y) 可 以 估计 为 : 


P(X | Y= Ll PG lysis (2. 4) 
i=] 

和 

PCY) = [[PGi; | 3» yi) (2.5) 

i=] 
为 使 计算 可 解 ， 需 要 简化 假设 : 
P(x: | vise? yi) 29 PCxi | yi (2. 6) 

可 以 假设 二 元 模型 来 建 模 输出 类 别 : 

PCy; | y15**5yii2 22 PCy; | yi) (os d) 


二 元 情形 使 用 一 个 完全 连接 的 m 状态 马尔 可 夫 模 型 ， 在 这 里 m 是 边界 类 别 的 个 数 。 
对 于 句子 (主题 ) 分割， 这些 状 态 生 成 词 (句子 或 段落 )， 并且 估计 能 够 最 可 能 生成 词 
(句子 ) 序列 的 状态 序列 。 状 态 转移 概率 P(y;|yi-1) 与 
状态 观察 值 似 然 PCr: | y;) 使 用 训练 数据 进行 估计 。 使 (s) 
用 动态 规划 来 计算 最 可 能 的 边界 序列 。 解 码 马 尔 可 夫 模 


型 使 用 Viterbi 算法 [23]。 以 增加 复杂 度 为 代价 ， 二 元 oO 
模型 可 以 推广 为 更 高 阶 的 二 元 模型 。 ne ic at a 
me -2” 一 个 假想 个 状 ; 
; 图 2-2 是 个 两 类 问题 往生 的 俩 了 ， 非 边 界 dà yy aA Lega 
和 边界 (SB) 作为 句子 分 后 的 标记 。 表 2-1 BAR ST — 模型 ， 一 个 具有 段 边界 ， 

生成 词组 成 的 序列 例子 。 一 个 为 其 他 类 型 
表 2-1 使 用 简单 的 两 个 状态 的 马尔 可 夫 模型 得 到 的 句子 分 割 
生成 词 e people are dead few pictures 


状态 序列 oo NB NB SB NB NB 
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对 于 主题 分 割 ， 一 般 使 用 个 状态 而 不 是 两 个 状态 ， 这 里 n 是 主题 的 数目 。 但 是 ， 在 
不 知道 主题 类 别 的 情况 下 获得 状态 观察 值 似 然 是 一 个 很 大 的 挑战 。Yamron 等 人 [24] 使 
用 一 元 语言 模型 来 建 模 主题 ， 而 状态 观察 值 似 然 使 用 k-means 聚 类 算法 来 训练 。 

注意 ， 句 子 或 主题 分 割 中 使 用 HMM 与 使 用 HMM 的 其 他 任务 ， 如 词性 ( Part-Of- 
Speech, POS) 标注 [25]] 或 命名 实体 抽取 [26]， 并 没有 太 大 的 区 别 。 但 是 传统 HMM 
方法 被 证 实 具 有 一 定 缺 陷 。 例 如 ， 该 模型 不 能 使 用 比 词 更 多 的 信息 ， 如 词 的 POS 标记 或 
者 语音 分 割 中 的 韵律 提示 等 。 

为 达到 这 个 目的 ， 有 两 种 简单 的 扩展 : Shriberg 等 人 [27] 建议 使 用 显 式 状 态 来 生成 
边界 词 元 ， 因 此 可 以 通过 结合 其 他 模型 的 方法 来 融和 人 非 词 法 信息 。 这 种 方法 用 于 句子 分 制 
之 中 ， 它 受到 隐 事 件 语言 模型 (Hidden Event Language Model, HELM) 的 启发 。 
HELM 是 Stolcke 与 Shriberg [28] 提出 的 ， 原 意 是 针对 语音 不 流畅 问题 设计 ， 该 方法 将 
这 种 事件 作为 额外 的 元 词 元 。 在 Shriberg 等 人 设计 的 模型 中 ， 对 于 每 个 边界 词 元 SB 和 
NB， 需 要 保留 一 个 状态 ， 其 他 的 状态 用 于 生成 词 。 为 了 简化 计算 ， 如 果 前 面 的 词 不 是 不 
流畅 单元 的 一 部 分 ， 那么 所 有 连续 词 间 都 要 插入 一 个 虚拟 的 词 元 。 例 2-1 是 一 个 具有 边界 
词 元 的 序列 设想 中 的 概念 性 表示 : ! 


Bj 2-1 -people NB are NB dead YB few NB pictures: 
最 可 能 的 边界 词 元 序列 也 是 通过 Viterbi 解码 得 
到 的 。 图 2-3 描述 了 设想 的 用 于 分 割 的 理论 隐 事 件 语 
€. 
这 些 额 外 的 边界 记号 用 来 获取 其 他 元 信息 。 最 | o 


常用 的 元 信息 是 其 他 分 类 器 的 反馈 。 一 般 地 ， 在 除 
以 先 验 概 率 以 后 [27]j， 在 边界 状态 中 的 后 验 概 率 用 
作 状 态 观察 值 似 然 。 这 些 额外 的 分 类 器 也 可 以 使 用 其 他 特征 集 来 训练 ， 比 如 韵律 或 句法 。 
这 种 混合 方法 在 2. 2. 4 节 描 述 。 

对 于 主题 分 割 ，Tur 等 人 [29] 采用 了 同样 的 想法 ， 显 式 建 模 主题 开始 及 主题 结束 
节 ， 对 广播 新 闻 主 题 分 割 有 极 大 的 帮助 ，。 

第 二 个 扩展 是 受到 分 解 式 语言 模型 [30」 的 启发 。 分 解 式 语言 模型 不 仅 包 含 了 词 的 信 
息 ， 也 包含 了 形态 、 句 法 以 及 其 他 的 信息 。Guz 等 人 [31] 提出 对 句子 分 割 使 用 分 解 式 
HELM (fHELM)， 除 了 词 以 外 还 使 用 POS 标记 信息 。 


2.2.2 判别 性 局 部 分 类 方法 


判别 性 分 类 器 的 目标 是 直接 对 式 (0.1) 中 的 PCy|x) 进行 建 模 。 在 如 朴素 贝 叶 斯 这 种 
生成 模型 方法 中 ， 类 别 密度 P(z|y) 是 模型 的 假设 ， 但 在 判别 方法 中 ， 用 特征 空间 的 判别 函 
数 来 定义 模型 。 许 多 判别 性 分 类 方法 ， 如 支持 向 量 机 、boosting、 最 大 炉 与 回归 等 ， 均 是 基 
于 不 同 的 机 器 学 习 算 法 。 尽 管 判 别 性 方法 在 许多 对 话 及 语言 处 理 任务 中 被 证 明 可 以 超过 生成 
方法 ， 但 它 的 训练 一 般 需要 进行 迭代 优化 。 

在 判别 性 局 部 分 类 方法 中 ， 每 个 边界 通过 使 用 局 部 特征 与 上 下 文 特征 进行 单独 处 理 。 与 
序列 分 类 模型 不 同 ， 判 别 性 局 部 分 类 方法 没有 进行 全 局 〈 即 句子 或 文档 级 ) 优化 ， 但 一 些 与 
更 大 的 上 下 文 有 关 的 特性 可 以 纳入 特征 集合 中 。 例 如 ， 可 以 通过 和 迭代 的 方式 来 使 用 前 一 个 或 
后 一 个 边界 的 预测 类 别 。 

对 于 句子 分 割 ， 应 用 于 报纸 文章 的 主要 是 有 监督 学 习 方法 。Stamatatos、Fakotakis 4 


图 2-3 分 割 问 题 的 理论 隐 事 件 语 言 模型 
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Kokkinakis [32] 使 用 基于 转换 的 学 习 (Transformation-Based Learning, TBL) 方法 来 
得 到 寻找 句子 边界 的 规则 。 许 多 分 类 器 都 尝试 过 处 理 这 个 问题 ， 比 如 ， 回 归 树 [33]. Tj 
经 网 络 (34, 35], C4.5 分 类 树 [36]. MAMA [37，38]， 支 持 向 量 机 (Support 
Vector Machine, SVM) 还 有 朴素 贝 叶 斯 分 类 器 L21]。 通 过 给 标点 符号 赋予 一 个 标记 
[39], Mikheev 将 句子 分 割 问 题 看 作词 性 标注 的 子 问题 。 他 使 用 了 HMM SAMA 
的 方法 来 处 理 标注 问题 ，。 

主题 分 割 [40，22] 中 常用 的 TextTiling 方法 使 用 了 词 向 量 空 间 的 词法 连贯 性 度量 作 
为 主题 相似 的 指示 。TextTiling 也 可 以 看 做 使 用 单个 相似 性 特征 的 局 部 分 类 方法 。 图 2-4 
是 一 个 典型 的 相 邻 分 割 单元 相似 度 的 图 。 当 相似 度 低 于 某 个 阅 值 时 ， 文档 会 被 切 分 。 
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图 2-4 TextTiling 例子 ( 源 于 [22] 


最 初 提出 了 两 种 计算 相似 度 的 方法 : 块 比较 以 及 词汇 引入 。 第 一 种 方法 : 块 比较 方 
法 ， 根据 相 邻 块 中 相同 词 的 个 数 来 计算 相似 度 。 块 的 大 小 可 以 是 变动 的 ， 可 以 使 用 一 个 窗 
口 而 不 是 只 看 相 邻 的 块 。 给 定 两 个 块 加 和 6。， 每 块 有 上 个 词 元 (句子 或 段落 )， 相 似 度 
(或 主题 连贯 性 ) 分 值 由 以 下 公式 计算 : 

Yos ta 


al >) eia, Dy hb, 
其 中 w ERAH b 内 项 上 的 权重 。 权 重 可 以 是 二 值 的 ， 也 可 以 使 用 如 词语 频率 这 种 基于 
信息 检索 的 信息 度量 。 | 
第 二 种 方法 : 词汇 引信 方 法 ， 根 据 以 当前 词 为 中 点 的 区 间 中 有 多 少 新 词 ， 来 计算 词 元 
序列 的 分 值 。 与 块 比 较 公 式 类 似 ， 给 定 两 个 具有 同样 词 数 ww 的 块 5b1 、b; ， 主 题 连贯 性 分 值 
按 如 下 公式 计算 ，; 
NumNewTerms (bi) + NumNewTerms (bz) 
2 X w 
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其 中 NumNewTerms(b) 返回 文本 的 块 5 中 第 一 次 见 到 的 词语 的 个 数 。 

Brants, Chen 以 及 Tsochantaridis [41] 将 该 方法 扩展 以 利用 潜在 语义 分 析 。 与 仅 看 
所 有 词 不 同 ， 这 种 方法 处 理 转 换 过 的 词法 空间 。 因 为 这 种 方法 能 够 隐 式 地 捕捉 到 语义 相似 
度 ， 所 以 它 能 取得 更 好 的 效果 。 

Morris 与 Hirst [42] 提出 用 词汇 链 而 非 词法 相似 度 来 计算 连贯 性 。 稍 后 ，Kan、 
Klavans 以 及 McKeown [43] 提出 了 使 用 更 简单 的 词汇 链 解释 方法 。 只 当 非 功能 词 和 句法 
短语 出 现在 nn 个 句子 中 时 ， 才 把 它们 连接 到 一 起 。 在 这 里 ，n 和 连接 的 权重 根据 句法 类 别 
进行 调整 。 

Banerjee 和 Rudnicky [44] 将 最 原始 的 TextTiling 方法 应 用 到 会 议 领域 。 对 于 会 议 
atl, Galley 等 人 [45] 使 用 了 相似 的 方法 ， 并 且 采 用 了 重复 词 链 。Hsueh 5 Moore 
[20] 使 用 决策 树 扩 展 这 个 方法 。Purver 等 人 [46] 使 用 了 一 个 生成 主题 模型 及 潜在 狄 利 
克 雷 分 配 的 变种 ， 以 无 监督 的 方式 学 习 主 题 的 模型 ， 同 时 生成 会 议 的 分 割 。 

Reynar [47] 与 Beeferman, Berger 以 及 Lafferty [48] 3Bi E B A MWR RR c in] 
汇 转 移 的 许多 词法 和 篇 章 特征 来 扩展 基于 TextTiling HAH. Georgescul, Clark 和 Arm- 
strong [49] 在 这 个 任务 上 使 用 了 SVM, Rosenberg 与 Hirschberg [50] 采用 了 用 词汇 
链 、 提 示 词 和 韵律 特征 的 Ripper 算法 。Levow [51] 在 对 广播 新 闻 分 割 中 使 用 了 基于 余弦 
相似 度 和 韵律 特征 的 决策 树 。 


2.2.3 判别 性 序列 分 类 方法 


在 分 割 任 务 中 ， 给 定 实例 Gi. AT. RY) 的 句子 或 主题 的 判断 ， 很 大 程度 上 依赖 
于 该 实例 附近 实例 的 判断 。 判 别 性 序列 分 类 方法 是 局 部 判别 性 模型 的 一 般 扩 展 ， 它 拥有 和 额 
外 的 解码 阶段 ， 能 够 通过 使 用 相 邻 决策 的 信息 来 决定 最 佳 的 标记 ， 进 而 标记 该 实例 。 条 件 
随机 场 (Conditional Random Field. CRF) [52] ER Bg Hé. SVM struct [53] 是 
SVM 的 扩展 以 处 理 结 构 化 输出 。 最 大 边界 马尔 可 夫 网 络 (Maximum Margin Markov Net- 
work，M3N) 是 HMM 的 扩展 [54], MIRA (Margin Infused Relaxed Algorithm) 是 一 
个 在 线 学 习 方 法 ， 在 训练 时 一 次 只 读 取 一 个 序列 。 为 了 简洁 ， 我 们 只 描述 CRF. CRF 为 
许多 序列 成 功 完成 标注 任务 ， 如 语音 中 的 句子 分 割 。 

CRF 是 用 于 标注 结构 的 一 类 对 数 线性 模型 [52]. 与 独立 预测 句子 或 主题 边界 的 局 部 
分 类 器 不 同 ，CRF 可 以 使 用 整个 序列 的 边界 假设 来 做 出 判断 。 形 式 上 讲 ， 在 给 定 从 输入 
(Xa, 3 m) 上 下 文 抽取 的 特征 集合 以 后 ，CRF 建 模 边 界 标注 序列 You, rs Ya) 
的 条 件 概 率 : 


n nm 


1 
PO | X) ~ zoo» (22 Afia ey) (2. 8) 


= 1} iz 


L(A) = Dexp( >) Da Oyy) 


t=1 i= 


y l 
其 中 广 (。) 是 观察 值 以 及 标记 团 的 特征 函数 ，) EA. ZC* 0 是 归 一 化 函数 ， 
只 与 观察 值 有 关 。CREF 在 训练 时 ， 寻 找 能 够 最 大 化 训练 数据 似 然 的 1 参数， 同时 经 常 添加 
调节 项 来 避免 过 拟 合 。 常 使 用 的 训练 算法 有 梯度 、 共 斩 梯 度 以 及 在 线 方法 [56. 57, 58]. 
使 用 动态 规划 (Viterbi 解码 ) 来 计算 Z(。) 函数 以 及 在 测试 时 寻找 最 可 能 的 标记 分 配 。 


2.2.4 混合 方法 
非 序 列 判 别 分 类 算法 一 般 会 忽略 上 下 文 ， 而 这 对 分 割 问题 而 言 是 很 重要 的 。 虽 然 我 们 
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可 以 将 上 下 文 作 为 特征 或 者 使 用 本 身 就 考虑 上 下 文 的 CRF， 但 这 些 方法 在 处 理 如 停顿 时 间 
和 音 高 区 间 这 样 的 实数 值 特征 时 ， 得 到 的 结果 是 次 优 的 。 之 前 的 研究 在 处 理 这 个 问题 时 ， 
都 是 简单 地 用 手工 或 自动 方法 将 特征 空间 离散 化 [59]。 

另 一 种 方法 是 使 用 混合 分 类 器 方法 ， 正 如 Shriberg 等 人 [27] 所 建议 的 那样 。 方 法 
的 主要 思想 是 对 于 每 个 候选 边界 ， 使 用 从 诸如 boosting 或 CRF 这 种 分 类 器 得 到 后 验 概率 
PCxlz)， 按 照 贝 叶 斯 公式 除 以 先 验 得 到 状态 观察 值 似 然 : 
Pot | an? 

PC y;) 

将 Viterbi 算法 应 用 到 HMM 即 可 得 到 最 可 能 的 分 割 。 为 了 处 理 状态 转移 概率 和 观察 
值 似 然 的 动态 区 间 ， 可 以 应 用 文献 中 经 常 提 到 的 加 权 方 法 : 

Mgmt PG | y;9* X PCy,)4 (2. 10) 


其 中 P(y;) 使 用 HELM 估计 ，x 和 8B 使 用 开发 集 优化 。 

Zimmerman 等 人 在 多 语 语句 分 割 实 验 中 对 比 了 多 种 局 部 判别 分 类 方法 ， 即 boosting, 
RAM. RRAUREMMIRAMA, BCBG ATE REA. Guz 等 人 [31] 对 CRF 
得 到 了 同样 的 结论 ， 尽 管 CRF 与 混合 方法 的 差距 较 小 。 


2.2.5 句子 分 割 的 全 局 建 模 扩展 


到 目前 为 止 ， 大 多 数 句 子 分 割 方法 主要 关注 识别 边界 ， 对 句子 本 身 并 不 关心 。 这 是 因 
为 如 果 关 心 句 子 ， 需 要 评 佑 比 目 前 多 二 次 方 数量 的 句子 假设 ， 这 比 边界 的 数目 要 多 。 为 了 
解决 这 个 问题 ，Roark 等 人 [61] 使 用 局 部 模型 判断 的 最 可 能 的 句子 边界 来 分 割 输入 ， 然 
后 用 分 割 的 n-best 列表 来 训练 一 个 重 排 锅 。 这 种 方法 能 够 利用 一 些 句 子 级 特征 ， 如 句法 分 
析 和 器 输出 分 值 或 全 局 韵律 特征 。Favre 等 人 [62] 使 用 剪 梳 的 句子 格 来 扩展 该 方法 ， 使 得 
能 够 更 有 效 地 融合 局 部 分 值 与 句子 级 分 值 。 


2.3 方法 的 复杂 度 


我 们 描述 的 方法 有 不 同 的 优 缺 点 。 在 给 定 的 上 下 文 和 特征 集合 中 ， 有 的 方法 可 能 比 男 
外 的 要 好 。 这 些 方 法 可 以 根据 训练 和 预测 算法 的 复杂 度 (时 间 和 空间 )， 以 及 在 真实 数据 
集 上 的 表现 进行 评价 。 有 些 方法 需要 特殊 的 预 处 理 ， 如 将 连续 特征 转换 或 者 标准 化 为 离散 
特征 。 

就 复杂 度 而 言 ， 判 别 性 方法 的 训练 比 生成 方法 的 训练 要 复杂 ， 因 为 它们 一 般 需 要 通过 
处 理 多 遍 训 练 数据 来 调整 它们 的 特征 权重 。 然 而 ， 诸 如 HELM 这 种 生成 模型 ， 可 以 通过 使 
用 大 规模 的 训练 数据 来 获得 提升 ， 例 如 使 用 数 十 年 的 新 闻 文 稿 。 男 一 方面 ， 这 些 模 型 只 能 使 
用 比较 少 的 特征 (对 HELM 而 言 只 有 词 ) 并 且 不 能 有 效 地 处 理 未 知事 件 。 判 别 性 分 类 器 多 
许 使 用 更 多 的 特征 ， 在 训练 数据 较 小 的 情况 下 有 更 好 的 结果 。 即 使 使 用 相对 简单 的 模型 ( 线 
性 或 对 数 线性 )， 判 别 性 分 类 器 的 预测 仍然 比较 慢 ， 因 为 提取 特征 占据 了 大 量 的 时 间 。 

与 局 部 方法 相 比 ， 序 列 方法 使 解码 更 加 复杂 : 寻找 最 优 序 列 的 决策 需要 评价 所 有 可 能 
的 序列 决策 。 幸 运 的 是 ， 条 件 独 立 假设 使 得 动态 规划 可 行 ， 进 而 平衡 空间 与 时 间 ， 使 得 解 
码 能 在 多 项 式 时 间 内 完成 。 复 杂 度 一 般 随 着 模型 的 阶 《〈 同 时 处 理 的 候选 边界 的 个 数 ) 以 及 
类 别 的 数目 (边界 状态 的 数目 ) 成 指数 级 增长 。 判 别 性 序列 分 类 上 器， 如 CRF， 还 需要 在 训 
练 数据 上 重复 进行 推理 ， 这 使 得 它们 的 代价 更 高 。 


argmax = argmaxP (x; | yi) (2.9) 
3, y, 
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2.4 方法 的 性 能 


对 于 语音 中 的 句子 分 割 ， 性 能 通常 使 用 错误 率 (错误 的 数量 与 总 数量 之 比 ) 评估 ， 如 
Fl 值 (召回 率 与 精确 率 的 调和 平均 数 ， 召 回 率 是 正确 返回 的 句子 边界 数目 与 参考 标注 中 
句子 边界 数目 之 比 ， 精 确 率 是 正确 返回 的 句子 边界 数 与 所 有 自动 预测 的 句子 边界 数目 之 
比 ) K NIST (National Institute of Standards and Technology) 错误 率 (错误 标记 的 候 
选 数 目 与 实际 边界 数目 之 比 )。 

对 于 文本 中 的 句子 分 割 ， 研 究 人 员 汇 报 了 华尔街 时 报 语料库 中 约 27 000 个 句子 的 错 
误 率 。 例 如 ，Mikheev [39] 报告 称 他 的 基于 规则 的 系统 能 达到 1. 41% 的 错误 率 。 使 用 额 
外 的 缩 略 词 表 能 使 该 系统 的 错误 率 降 到 0. 45% ， 再 结合 使 用 词性 标记 特征 的 有 监督 分 类 器 
能 得 到 错误 率 为 0.31% 的 结果 。 不 使 用 手写 规则 以 及 缩 略 词 表 ，Gillick [21] 的 基于 
SVM 的 系统 得 到 更 低 的 错误 率 ， 为 0. 25%‰%。 尽 管 这 些 错误 率 看 起 来 很 低 ， 但 句子 分 割 是 
任何 NLP 任务 的 第 一 步 ， 并 且 每 一 步 的 错误 都 会 影响 到 随后 的 步骤 ， 尤 其 是 最 终 句 子 呈 
现 给 用 户 时 尤为 严重 ， 如 目 动 摘要 任务 。 

对 于 语音 中 的 句子 分 割 ，Doss 等 人 [63] 使 用 MaxEnt 分 类 器 在 TDT4 Multilingual 
Broadcast News Speech 的 普通 话语 料 库 中 取得 了 69.1% 的 Fl 值 ， 使 用 同样 的 特征 ，Ada- 
boost 可 以 达到 72.67%, SVM 能 达到 72.7 为 。 他 们 还 提出 子 使 用 逻辑 回归 来 融合 三 种 分 类 器 
的 方法 。 在 Turkish broadcast news 语料库 上 ，Guz 等 人 [31] 使 用 HELM 得 到 了 78. 296 fj 
Fl 值 ， 利 用 形态 学 特征 的 [HELM 得 到 了 86. 2% 的 Fl 值 ，Adaboost 得 到 了 86.9%% 的 Fl 值 ， 
CRF 得 到 89. 12689 F1 值 。 这 些 结 果 中 ，HELM G&A fHELM) 以 及 其 他 分 类 器 都 由 同样 的 
语料库 训练 。 但 是 它们 还 可 以 用 更 大 的 语料库 训练 ， 并 通过 结合 判别 性 分 类 需 来 提升 性 能 。 
flit, Zimmerman 等 人 [64] 报告 TDT4 broadcast news 的 英文 语料库 中 ， 用 Adaboost 结合 
HELM 可 以 得 到 67. 3258 Fl 值 ， 而 单独 用 Adaboost 只 能 得 到 65. 5% 。 


2.5 特征 


尽管 许多 方法 与 它们 所 使 用 的 特征 紧密 相连 ， 但 是 出 于 演示 的 目的 ,将 它们 分 离 是 很 
有 利 的 。 同 样 地 ， 尽 管 大 多 数 的 特征 类 别 ， 如 词法 或 韵律 特征 ， 在 句子 和 主题 分 割 中 很 常 
W, 但 它们 的 使 用 却 差别 很 大 。 当 特征 可 以 同时 用 于 句子 和 主题 分 割 时 ， 我们 用 分 割 来 统 
称 ， 其 他 情况 会 显 式 说 明 。 

本 节 我 们 将 潜在 边界 观察 值 的 特征 用 向 量 xz 来 表示 。 特 征 可 以 是 二 元 的 《存在 触发 词 
Flap=1 表示 ， 不 存在 用 xy 二 0 表示 )， 也 可 以 取 实 数值 (如 句子 的 长 度 、 暂 停 的 持续 时 
间 )、 即 zr ER。 对 于 二 元 特征 ， 我 们 用 zyr 表示 .zy 三 1， 忽略 zy 二 0。 

有 些 分 类 器 会 假定 输入 特征 的 性 质 ， 要 求 特征 必须 是 二 元 或 者 它们 的 分 布 最 好 标准 
化 。 通 过 量化 以 及 投影 到 高 维 空间 ， 实 值 特征 可 以 转换 为 二 元 特征 。 如 果 一 个 特征 的 值 在 
某 个 区 间 里 ， 那 么 投影 空间 中 对 应 维 的 值 为 1， 其 他 维 为 0。 


2.5.1 同时 用 于 文本 与 语音 的 特征 


1. 词法 特征 

对 于 文本 和 语音 的 句子 及 主题 分 割 而 言 ， 词 法 特征 都 是 非常 重要 的 特征 。 句 子 和 主题 
的 首尾 词 元 以 及 短语 可 以 被 先前 描述 的 统计 机 器 学 习 算 法 利用 。 一 般 地 ， 对 于 句子 (或 主 
题 ) 分 割 ， 会 分 析 一 个 大 小 为 n 的 词 元 (或 句子 ) 窗口 。 序 列 分 类 方法 隐 含 地 使 用 这 类 分 
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析 人 信息， 而 局 部 分 类 方法 需要 使 用 对 应 的 特征 ， 如 与 上 一 个 句子 重合 的 实 词 等 。 

对 于 文本 的 句子 分 割 ， 词 法 提示 是 文本 中 的 词 元 ， 主 要 任务 是 对 句子 结尾 标点 符号 进 
行 消 歧 。 对 于 语音 的 句子 分 割 而 言 ， 词 法 提示 是 原始 词 元 ， 因 为 语音 中 缺乏 符号 提示 。 

注意 词法 特征 有 两 种 用 法 。 第 一 种 用 法 是 基于 边界 附近 的 词汇 特征 出 现 与 否 二 如 提示 
短语 。 例 如 ， 在 TDT 的 广播 新 闻 语 料 中 ， 新 闻 单 元 〈 即 主题 ) 通常 以 相似 的 短语 结束 。 
这 类 用 法 被 描述 为 “篇 章 特 征 ”。 第 二 种 用 法 类 似 于 基于 TextTiling 的 方法 ， 它 一 般 使 用 
计算 余弦 距离 时 的 实 词 词 王 。 第 一 种 用 法 与 类 别 和 语言 有 关 ， 而 第 二 种 用 法 与 语言 无 关 。 
这 两 种 用 法 并 非 非 此 即 彼 ,， 而 是 可 以 融 于 同一 分 类 框架 中 。Reynar 的 工作 [47] 可 以 看 
作 是 达成 这 一 框架 的 先锋 。 在 最 大 炉 的 框架 中 ，Reynar 使 用 了 边界 之 前 与 之 后 窗口 中 实 
词 和 重复 名 字 的 计数 为 特征 。 

更 形式 化 地 ， 令 mw w, cs w 为 输入 词 元 ， 我 们 从 wi; 和 wi;+1 间 的 边界 候选 中 提 
取 词 特征 。 对 于 句子 分 割 ， 最 相关 的 特征 一 般 是 边界 之 前 、 之 后 以 及 跨 边 界 的 词 元 nn 元 
组 。 对 于 二 元 组 ， 会 提取 出 以 下 特征 ; mus ws Dw wa, 和 zw ,w, 。 跨 边界 特征 能 够 抓 
住 句 子 边 界 的 一 些 信息 ， 如 Gov. Smith 后 面 不 可 能 是 句子 边界 ， 而 government. The 中 间 
可 能 有 句子 边界 。 

对 于 主题 分 割 ， 候 选 边界 出 现在 句子 间 。 如 果 将 边界 前 的 句子 记 为 % ， 将 边界 后 的 名 
子 记 为 %+l1， 而 如 果 这 些 句 子 中 存在 提示 短语 < 则 记 为 zcey 和 zecey*，。 第 二 类 特征 是 边界 
前 后 内 容 的 相似 内 容 ， 一 般 通 过 前 后 句子 的 相似 度 表 示 : 

24 ,íCussOtfGu, sins Didf Cw) 


Xcosine(s, ssu; ) = —— 
> GfGossDidfíGu))? A/ > GfGw sins id fw) )? 


其 中 tf(mw,s) = 一 二 表示 句子 s 中 记号 的 项 频率 。idf(zw) 王 log 表示 该 记号 的 


ul uss 





道 文档 频率 ， 它 可 以 表明 词 元 是 否 常见 ， 一 般 在 男 外 的 语料库 中 计算 CD 是 文档 的 总 数 
H, dlw) 是 包含 w 的 文档 的 个 数 ) 。 内 容 可 以 从 多 个 级 别 上 比较 : 比如， 边界 前 7 名 和 
边界 后 n ^j. 

词汇 链 是 男 一 个 与 主题 分 割 有 关 的 特征 。 我 们 一 般 计 算 开 始 于 和 结束 于 候选 边界 的 链 
的 个 数 。 令 cEC 为 有 关 词 汇 链 的 词 的 集合 〈 例 如 叶子 、 玫 瑰 、 花 ) 。 基 于 实用 性 考虑 ， 一 
个 词汇 链 经 常 缩减 为 一 个 词 元 〈 所 有 出 现 的 叶子 ) 。 然 后 ， 对 于 w 与 wwi+1 之 间 的 候选 边 
界 broken-lexical-chain 特征 可 以 由 以 下 公式 计算 : 


Ice €. min I= k > dais] 
w, Xw,€cXc 
kzi.U»1 


大 多 数 基 于 文本 源 的 自动 主题 分 割 工 作 都 以 某 种 方法 探索 主题 词 使 用 提示 。 开 ozima 
[65] 使 用 文本 序列 中 词 的 相互 相似 度 作 为 文本 结构 的 指示 。Reynar[66] 通过 图 模型 来 建 
模 重 复 词 的 分 布 ， 可 以 找到 主题 相似 的 区 域 。Ponte 与 Croft[67] 使 用 局 部 上 下 文 分 析 中 
的 信息 检索 技术 来 提取 主题 片段 的 相关 词 集 合 ， 然 后 与 扩展 词 集合 进行 对 比 。 

Beeferman 等 人 [48] 使 用 了 最 大 粹 模型 ， 融合 了 一 个 由 自动 选择 的 词汇 篇 章 提示 组 
成 的 大 特征 集合 。 他 们 通过 建立 两 个 统计 语言 模型 ， 也 将 主题 词 使 用 融合 进 模 型 中 。 这 两 
个 语言 模型 为 : 一 个 静态 的 (主题 无 关 的 ) 语言 模型 和 根据 过 去 词 更 改 词 预测 的 语言 
型 。 它 们 表明 了 两 个 预测 器 的 对 数 似 然 率 之 比 可 以 作为 主题 边界 的 指示 ， 因 此 可 以 用 于 指 
数 模型 分 类 器 的 一 个 额外 特征 。 


chain 一 
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2. 句法 特征 

一 系列 的 研究 成 功 地 应 用 了 名 法 信息 。Mikheev[39] 在 句子 分 割 任务 中 隐 式 地 使 用 了 
POS 标记 。 同 样 地 ， 对 于 2. 2. 5 节 介 绍 的 全 局 重 排序 方法 ， 使 用 了 以 成 分 树 或 依存 树 形式 
出 现 的 句法 特征 。 

对 于 形态 学 丰富 的 语言 ， 如 捷克 语 和 土耳其 语 ， 用 词 的 形态 分 析 作 为 附加 提示 [31. 68]. 

JEX Eth, ons c th 为 POS 序列 或 者 从 词 wi ，…，w 中 抽取 的 形态 标记 。 可 
以 提取 和 词类 似 的 特征 (边界 之 前 、 之 后 以 及 跨 边 界 的 n cH). (UA. x2 2. Fe, 和 
zi。 对 于 主题 分 割 而 言 ， 句 法 特征 不 那么 有 用 ， 因 为 主题 的 变化 一 般 是 因为 内 容 的 


”转换 。 


在 概率 上 下 文 无 关 文 法 (Probabilistic Context-Tree Grammar, PCFGO 的 全 局 模型 
下 评价 一 个 候选 句子 合乎 语法 的 程度 ,我 们 可 以 计算 该 句子 所 有 可 能 分 析 树 的 概率 的 和 : 


Xy = PIL) = > LLP) 


ts, ret 
其 中 zt 是 分 析 树 ，r 是 树 中 使 用 的 产生 式 规则 [69]. 
3. 篇 章 特 征 
无 论语 音 还 是 文本 ， 篇 章 特征 对 于 分 割 而 言 都 是 非常 重要 的 。 例 如 ， 在 广播 新 闻 中 ， 
音 员 首先 说 出 标题 ， 然 后 是 赞助 广告 ， 最 后 报道 才 一 个 个 呈现 ， 中 间 可 能 会 有 播音 员 或 
记者 的 交互 或 者 主题 开始 、 结 束 短 语 。 

之 前 文本 和 语音 分 割 的 工作 已 经 显示 出 提示 短语 或 篇 章 助 词 (比如 now 或 by the 
way) 以 及 其 他 词法 提示 ， 是 篇 草 结 构 单 元 非常 有 价值 的 指示 [如 70, 71]. ÆW Xi F 
语音 来 说 ， 说 话 人 的 改变 可 以 作为 句子 边 界 的 指示 ， 广 告 可 以 是 广播 新 闻 或 会 话 主题 边界 
的 指示 。 形 式 上 讲 ， 对 于 所 有 出 现在 边界 附近 的 事件 eEEk， 特 征 re 可 以 表示 该 事件 出 现 ， 
ze 表示 该 事件 没有 出 现 。 事 件 需要 由 本 书 没 有 详细 摘 述 的 系统 〈 如 一 个 商业 检测 器 ) 进 
行 检测 ， 同 时 可 能 会 输出 置信 分 值 。 在 这 种 情况 下 ， 特 征 为 ze 一 cs， 其 中 es 是 被 识别 事件 
的 置信 分 值 。 

尽管 之 前 的 方法 试图 使 用 预先 定义 的 篇 章 提示 ， 更 多 基于 语料库 的 方法 ， 使 用 具有 有 
效 特 征集 的 机 器 学 习 方 法 来 自动 学 习 这 种 模式 。 例 如 ，Tur 等 人 L29] 对 主题 的 开始 与 结 
束 句 子 使 用 显 式 的 HMM 状态 ， 取 得 了 很 大 的 提高 。Rosenberg 与 Hirschberg [50] 使 用 
统计 假设 检验 来 确定 这 样 的 短语 。 

对 于 会 议 或 会 话 分 割 ， 篇 章 特征 更 加 复杂 而 且 依 赖 于 辩论 结构 。 大 多 数 工作 简单 地 使 
用 前 一 个 或 后 一 个 的 说 话 人 切换 来 作为 篇 章 特征 。 更 高 级 的 语义 信息 ， 如 对 话 行 为 标记 或 
会 议 议程 项 目 ， 也 是 可 以 利用 的 篇 章 信息 L72]. 


2. 5.2 只 用 于 文本 的 特征 


排版 与 结构 特征 

对 于 句子 和 主题 分 割 而 言 ， 如 标点 符号 和 标题 这 样 的 排版 与 结构 提示 ， 是 十 分 有 用 
的 。 句 子 分 割 系统 使 用 边界 之 前 与 之 后 的 词 ， 还 有 词 的 大 小 写 及 POS 标记 、 长 度 以 及 它 
们 在 非 句 子 边界 上 下 文 〈 如 在 小 写 词 前 ) 中 出 现 的 频率 。 同 样 地 ， 包含 缩写 词 的 地 名 词 
典 、 预 处 理 及 后 处 理 模式 也 用 来 处 理 文 本 。 

形式 上 讲 ， 令 g 为 地 名 词典 中 出 现 的 词 的 集合 。 如 果 xEg， 那 么 生成 一 个 特征 tg = 


BZE RHH 33 


1。 类 似 地 ， 记 录 小 写 格式 词 的 频率 的 特征 可 以 用 pce 一 上 计算 ,其 中 elw) # 


w| 

示 也 的 小 写 格 式 。 

在 Gillick [21] 的 句子 分 割 工 作 中 ， 他 发 现 给 定 一 个 特征 集合 ， 相 对 于 训练 与 测试 数 
据 的 不 一 致 以 及 输入 词 切 分 的 不 一 致 而 言 ， 分 类 器 的 选择 影响 不 大 。Kiss 与 Strunk [73] 
提出 了 一 种 寻找 句子 边界 的 无 监督 方法 ， 它 能 够 用 全 局 统计 量 在 未 标记 的 语 料 中 学 习 缩 写 
i. 尽管 这 个 方法 与 语言 无 关 ， 但 是 如 果 缩 写 词 在 测试 语 料 中 没有 多 次 出 现 ， 那 么 它 也 是 
不 能 被 识别 的 。 

其 他 的 结构 提示 包括 段落 边界 、 标 题 、 节 号 等 。 这 种 提示 只 存在 于 结构 文本 资源 中 ， 
在 博客 、 聊 天 室 这 种 文本 中 并 不 存在 。 


2.5.3 语音 特征 


当 使 用 语音 识别 的 输出 时 ， 因 为 识别 错误 ， 有 些 词 可 能 不 正确 ， 这 使 得 词法 特征 的 质 
量 下 降 。 同 样 地 ， 词 元 开始 与 结束 时 间 有 可 能 估计 得 不 对 ， 使 得 在 计算 韵律 特征 时 产生 错 
误 。 典 型 地 ， 为 了 重 棒 地 应 对 这 些 错误 ， 会 抽取 出 大 量 的 韵律 特征 。 

韵律 特征 

当 分 割 语 音 而 非 文本 时 ， 可 以 使 用 同样 的 方法 ,但 是 要 三 思 。 首 先 ， 对 于 自动 语音 处 
理 ， 词 法 信息 是 从 语音 识别 的 输出 而 来 ， 这 其 中 一 般 会 包含 错误 。 其 次 ， 口 语 一 般 缺 乏 显 
式 的 标点 符号 、 大 写 以 及 格式 信息 。 而 这 些 信息 通过 语言 以 及 齐 律 传达 。 再 次 ， 尽 管 口语 
如 广播 新 闻 是 从 文本 中 读 出 的 ， 但 大 多 数 上 自然 语音 是 会 话 形式 的 。 在 上 自然 、 目 发 的 语音 
中 ， 旬 子 可 以 是 “不 合 语 法 ”( 从 形式 句法 的 角度 ) 的 ， 并 且 一 般 包含 相当 数目 的 语音 间 
断 ， 如 填充 的 停顿 、 重 复 和 纠正 。 

AH. 口语 语音 输入 提供 额外 “超过 词汇 ”的 信息 ， 这 些 信息 可 以 从 声调 和 节奏 ， 
Be Hse], PRAGA GEM). Fm (能 量 ) 以 及 时 间 〈 由 发 音 时 长 和 停顿 传达 ) 的 
模式 。 韵 律 提示 在 自然 口语 中 与 篇 章 结 构 相 关 ， 因 此 可 以 在 指示 句子 边界 及 主题 转换 中 起 作 
用 。 而 且 葛 律 提示 天 生 与 词 是 独立 的 ， 因 此 它们 的 错误 比 自动 语音 识别 中 的 词法 特征 要 少 。 

图 2-5 描述 了 句子 语音 分 割 中 的 韵律 特征 和 词汇 特征 。 广 义 地 说 ， 句 子 边界 的 韵律 特 
征 与 主题 边界 的 相似 ， 因 为 它们 都 有 用 于 表示 分 块 信息 的 停顿 。 在 大 的 〈 即 主题 ) 间断 
中 ， 停 顿 长 度 、 音 高 以 及 能 量 重 置 通常 要 大 一 些 ， 但 是 相似 类 型 的 韵律 特征 可 以 用 于 这 两 


个 任务 中 ， 特 征 是 从 当前 任务 中 训练 而 来 。 
说 话 者 改变 
程式 化 的 音 高 
x 
元 音 或 韵脚 的 
持续 时 间 








Eb—^' isl 
图 2-5 语音 分 割 中 的 基本 韵律 与 词法 特征 


大 量 的 铝 子 分 割 研究 (74, 75, 27, 76, 77, 78, 51, 11, 79, 60, 80] 使 用 了 韵律 


[45 | 


[46] 
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特征 。 最 简单 且 最 常用 的 特征 是 当前 边界 的 停顿 。 对 于 自动 处 理 ， 停 顿 比 其 他 韵律 特征 更 
容易 获得 ， 这 是 因为 与 音 高 和 能 量 特征 不 同 ， 停 顿 信息 可 以 从 自动 语音 识别 输出 中 提取 。 
当然 ， 不 是 所 有 的 句子 边界 都 包含 停顿 ， 尤 其 是 在 自然 语音 中 。 反 之 ， 不 是 所 有 的 停顿 都 
对 应 句子 边界 。 例 如 ， 有 些 句子 内 部 的 不 连贯 也 包含 停顿 。 一 些 方法 只 是 简单 地 查看 是 否 
存在 停顿 ， 而 另外 一 些 方法 建 模 停顿 的 时 间 。 停 顿 持续 时 间 在 会 话 的 说 话 人 切换 边界 时 非 
常 长 ， 这 是 因为 这 段 时 间 另 一 个 人 要 讲话 。 某 些 对 话 行为 ， 如 一 些 反 向 信道 (如 “uh- 
huh") 倾向 于 单独 出 现 ， 因 此 句子 分 割 只 用 停顿 信息 也 会 取得 相当 成 功 的 结果 。 

停顿 特征 计算 为 x pause 二 start(w;41) 一 end(w;)， 其 中 startQ 和 enad() 表示 语音 识别 
结果 中 开始 与 结束 词 的 时 间 ， 以 秒 为 单位 。 相 关 的 边 特征 是 词 前 的 停顿 (以 了 解 它 是 否 是 
单独 的 ) 以 及 量化 停顿 ，xopause Cw;)—1 4AM Spouse >thrpauses FE F thr pause B] UA Ut A 
0.2 秒 。 停 顿 持 续 并 不 服从 正 态 分 布 ， 这 会 使 一 些 假 设 正 态 分 布 的 分 类 器 遇 到 问题 。 然 
而 ， 这 个 特征 往往 是 语音 分 割 中 最 相关 的 特征 。 

更 细致 的 韵律 建 模 包括 音 高 、 音 长 、 能 量 信息 。 音 高 使 用 语音 中 有 声 部 分 的 基 频 来 建 
模 。 音 高 传达 了 一 系列 的 信息 ， 如 突出 的 音节 。 不 过 在 句子 分 割 中 ， 使 用 音 高 一 般 是 为 了 
找到 音 高 的 重 置 。 因 此 ， 一 般 方 法 是 看 词 边 界 音 高 的 变化 ， 越 大 的 负 值 越 表 示 可 能 是 句子 
边界 。 除 了 建 模 词 边界 的 音 高 中 断 外 ， 有 的 方法 [27] 也 建 模 了 说 话 人 相关 的 言语 结尾 的 
音 高 值 ， 这 不 仅 提 高 了 性 能 ， 也 使 因果 建 模 成 为 了 可 能 。 这 是 因为 它 不 依赖 于 停顿 之 后 的 
Be 81). 

音 高 不 是 一 个 连续 函数 ， 也 不 能 在 声音 范围 外 进行 计算 。 因 此 ， 给 定 一 个 候选 边界 ， 
音 高 特征 可 能 没有 定义 ， 这 对 一 些 分 类 器 而 言 是 很 大 的 问题 。 计 算 音 高 、 加 以 正确 平滑 和 
插值 不 是 本 书 的 内 容 ， 它们 应 该 由 合适 的 软件 进行 处 理 ， 如 广泛 使 用 的 Pratt 工具 [82]. 
一 般 地 ， 特 征 是 从 候选 边界 前 一 词 之 前 的 窗口 以 及 边界 后 一 词 之 后 的 窗口 中 统计 的 音 高 值 
来 计算 。 人 例如， 前段 描述 的 音 高 差别 特征 计算 为 : 


Lpitch 一 ( max pitch(t) ) —( min pitch) ) 
tEWw Gv) tEW,(w,.,) 


其 中 opitch (t) 是 时 间 OWA. Ww) 是 词 wi; 之 后 的 临时 窗口 ，W; (wi) 是 词 
zi+i 之 前 的 相似 窗口 。 该 特征 的 变化 可 以 通过 改变 窗口 大 小 〈 如 200ms、500ms)， 改 变 
边界 两 边 的 统计 量 (如 min、max、mean)， 按 照 不 同 的 因素 〈 即 log 空间 投影 ， 当 前 说 话 
人 音 高 值 分布 标 准 化 ) 规范 化 音 高 值 这 几 种 方法 来 创建 。 

句子 分 割 的 持续 时 间 特 征 旨 在 捕捉 一 种 称 为 边界 前 延长 (preboundary lengthening) 
的 现象 ， 即 最 后 一 个 单元 前 的 语音 区 域 会 被 拉 长 〈《 有 意思 的 是 ， 这 种 现象 也 在 音乐 中 ， 甚 
至 鸟 的 歌声 中 被 发 现 [83]) 。 当 音节 持续 时 间 根 据 从 相似 的 口语 风格 的 语料库 中 该 音节 持续 
时 间 的 平均 值 标准 化 以 后 ， 自 动 建 模 方法 可 以 很 好 地 捕捉 到 边界 前 延长 现象 。 倒 数 第 二 个 音 
节 的 韵 〈 元 音 和 它 后 面 的 任意 辅音 ) 的 持续 时 间 一 般 比 该 音节 开始 的 韵 的 持续 时 间 要 长 。 

例如 ， 令 v 为 候选 边界 前 的 词 w: 中 最 后 的 元 音 。 可 以 计算 一 个 特征 作为 该 元 音 的 相 
对 持续 时 间 ， 相 对 于 语料库 C 中 该 元 音 的 平均 持续 时 间 : 

end(vw ) 一 start(vw ) 


we c end Cos) — start (v, ) 


能 量 特征 在 句子 边界 建 模 中 也 被 使 用 ， 不 过 没有 那么 成 功 。 从 描述 的 角度 来 看 ， 能 量 
与 音 高 类 似 ， 在 句子 结尾 时 减弱 ， 下 一 个 句子 时 又 会 重 置 。 但 是 能 量 受 很 多 因素 影响 ， 包 
插 录 制 方法 ， 而且 很 难 标 准 化 ， 无 论 是 对 同一 个 人 而 言 还 是 对 许多 人 而 言 。 因 此 该 特征 没 
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有 自动 分 割 中 的 停顿 、 谱 高 以 及 持续 时 间 这 几 个 特征 有 效 。 
韵律 建 模 中 最 后 二 个 特征 是 音质 。 一 些 描述 性 工作 显示 音质 的 改变 与 句子 边界 有 一 定 


”关联 ， 但 是 这 种 现象 与 说 话 人 高 度 相关 ， 而 且 很 难 用 自动 方法 捕 提 到 。 所 以 大 多 数 自动 分 


割 方法 还 是 依赖 于 先前 提 到 的 那些 韵律 特征 。 

主题 边界 的 一 些 描述 性 工作 发 现 主题 的 明显 转变 往往 会 伴随 长 的 停顿 、 额 外 高 的 Fo Jf 
始 与 重 置 、 更 高 的 最 大 音 峰 值 、 说 话 速率 的 转变 以 及 更 广 的 FO 和 强度 (例如 ，84，85，86， 
87，27)。 这 些 提示 对 人 类 听众 而 言 很 明显 。 事 实 上 ， 即 便 通 过 谱 过 滤 使 得 语音 本 身 变 得 难 
以 捉摸 L88j， 测 试 者 仍然 可 以 感知 到 大 的 篇 章 边 界 。 在 自动 主题 转换 的 研究 中 ,，Galley 等 人 
L45」 发 现 说 话 人 行为 的 改变 、 沉 默 的 程度 、 重 全 的 语音 以 及 特定 提示 短语 的 存在 与 否 都 能 
指示 主题 的 变化 。 将 这 些 特征 加 入 到 他 们 的 方法 中 极 大 地 提高 了 分 割 的 准确 率 。Georgescul、 
Clark 和 Armstrong [89] 发 现 他 们 的 方法 加 上 类 似 的 特征 也 得 到 了 一 些 提升 。 但 是 ，Hsueh、 
Moore 以 及 Renals [90] 发 现 这 只 对 粗 粒 度 的 主题 转换 〈 对 应 活动 的 变化 或 者 会 议 陈 述 的 变 
化 ， 如 简介 、 闭 幕 或 回顾 ) 有 效 ， 在 细 粒 度 的 主题 转换 中 没有 发 现 效果 。 


2.6 处 理 阶段 


一 般 地 ， 分 割 任务 的 第 一 步 是 预 处 理 ， 以 用 来 确定 词 元 和 候选 边界 。 在 诸如 英语 这 样 
的 语言 中 ， 词 就 是 候选 词 元 ， 不 过 也 存在 缩写 和 首 字母 缩 略 词 等 特殊 情况 。 诸 如 汉语 ， 如 
有 文本 源 ， 可 以 先进 行 分 词 处 理 。 

接 下 来 ， 如 上 一 节 所 述 ， 对 于 每 个 候选 边界 需要 提取 特征 集合 。 对 于 语音 数据 ， 参 考 
口语 发 音 中 通常 没有 词 元 开始 时 间 及 持续 时 间 ， 但 是 计算 韵律 特征 需要 这 些 数据 。 一 般 
地 ， 解 码 过 程 中 会 强制 进行 对 齐 来 获得 这 种 特征 。 

一 且 特 征 提取 出 来 ， 每 个 候选 边界 可 以 用 前 几 节 描述 的 方法 进行 分 类 。 

对 于 测试 ， 自 动 估算 的 词 元 边界 会 与 参考 数据 中 的 边界 进行 对 比 。 当 语音 识别 的 输出 
用 于 训练 或 测试 时 ， 参 考 词 元 会 与 语音 识别 输出 的 词 对 齐 ， 使 用 动态 规划 来 最 小 化 对 齐 错 
误 〈 比 如 使 用 NIST sclite 对 齐 工具 )， 边 界 标注 会 转移 到 语音 识别 的 输出 中 。 不 幸 的 是 ， 
有 时 完美 的 对 齐 并 不 存在 。 例 如 ， 参 考 标注 中 的 两 个 词 元 间 有 句子 边界 ， 但 这 两 个 词 元 可 
能 会 被 语音 识别 器 识别 为 一 个 词 元 。 在 这 种 情况 下 ， 语 音 识 别 标注 中 是 应 该 省 略 句 子 边 界 
还 是 包含 它 ， 并 不 清楚 ， 因 此 可 使 用 启发 式 规 则 。 


2.7 We 

尽管 句子 分 割 是 许多 语言 处 理 中 非常 有 用 的 一 个 步骤 ， 但 实践 发 现 ， 针 对 随后 步骤 细 
致 优化 分 割 参数 比 独立 地 优化 预测 句子 边界 的 分 割 质量 得 到 的 效果 要 好 。 例 如 ，Walker 
等 人 [91] 发 现 ， 与 机 器 学 习 方 法 相 比 ， 使 用 手写 规则 进行 句子 分 割 的 机 器 翻译 系统 的 表 
现 要 差 得 多 。Matusov 等 人 [92] 发 现 优化 源 语 言 端 句子 分 割 参数 对 口语 文档 的 机 顺 翻 译 
很 有 效 。 同 样 地 ， 与 单独 优化 句子 分 割 任务 不 同 ，Favre 等 人 [93] WR Liu fI Xie [94 ] 
分 别 研究 了 面 回 信息 抽取 和 语音 摘要 的 参数 优化 的 效果 。 

对 于 主题 分 割 ， 自 动 语音 转 写 使 用 语言 模型 来 预测 语言 模型 的 主题 信息 。 不 管 是 使 用 
相同 主题 训练 的 语言 模型 ， 还 是 使 用 一 个 通用 的 语言 模型 ， 其 中 的 主题 作为 一 个 隐 变 量 在 
解码 中 进行 估计 ， 实 验 显示 ASR 的 性 能 均 有 提高 。 更 一 般 地 ， 主 题 驱 动 的 领域 目 适 应 在 
自然 语言 处 理 任务 中 被 大 量 使 用 。 在 信息 检索 中 ， 通 过 允许 词 在 包含 它 的 主题 函数 中 有 不 
同 的 贡献 ， 可 以 显 式 建 模 主题 模型 ; 使 用 同 现 空间 降 维 技术 可 以 隐 式 地 建 模 主题 模型 。 在 
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A ii, Tang, Yao 与 Chen [97] 提出 需要 重新 审视 “文档 是 由 单一 主题 组 成 ”这 
一 假设 ， 并 且 在 他 们 的 模型 中 加 入 了 主题 相关 的 信息 。 主 题 信息 对 词义 消 歧 也 有 帮助 ， 因 
为 给 定 一 个 主题 后 ， 许 多 词 一般 会 有 一 个 主要 的 含义 [98]. 


2.8 BS 


本 昔 描 述 了 用 文本 和 语音 作为 输入 的 句子 和 主题 分 割 任务 ， 还 描述 了 许多 处 理 这 些 任 
务 的 不 同类 别 的 算法 。 根 据 输入 类 别 (如 文本 与 语音 ) 的 不 同 ， 可 以 把 许多 不 同 种 类 的 特 
征 应 用 到 这 些 任务 中 。 例 如 ， 在 文本 中 ， 排 版 的 提示 (大 小 写 和 标点 符号 ) 很 有 用 ， 而 对 
于 语音 ， 韵 律 特征 非常 实用 。 

与 近期 在 语音 处 理 和 判别 性 机 器 学 习 的 进展 相同 步 ， 通 过 使 用 高 维特 征集 ， 和 句子 与 主 
题 分 割 系统 的 性 能 也 得 到 提升 。 但 是 ， 这 些 系统 仍然 存在 错误 。 因 此 随后 的 处 理 阶 段 ， 如 
机 器 翻译 ， 必 须 足 够 鲁 棒 来 应 对 噪声 。 未 来 需要 对 分 割 及 随后 的 处 理 系统 的 联合 优化 做 更 
多 的 研究 。 
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句法 分 析 揭 示 语 言 的 内 部 结构 。 在 自然 语言 处 理 等 应 用 领域 ,句子 的 谓词 - 论 元 结构 
非常 有 用 。 语 言 的 句法 分 析 提 供 了 一 种 手段 ， 显 式 地 发 现 句子 中 可 能 存在 的 各 种 谓词 - 论 
元 的 依存 关系 。 在 自然 语言 处 理 中 ， 自 然 语 言 输入 的 句法 分 析 可 以 是 低层 次 的 ， 如 进行 简 
单 的 词性 标注 ; 也 可 以 是 高 层次 的 ， 比 如 ， 结 构 分 析 、 识 别 句子 论 元 间 及 其 显 式 论 元 和 隐 
式 论 元 的 依存 关系 。 自 然 语 言 分 析 的 主要 瓶颈 是 普遍 存在 的 歧义 性 。 在 名 法 分 析 中 ， 歧 义 
消解 是 特别 困难 的 ， 因 为 句法 分 析 树 数目 随 着 句子 长 度 呈 指数 增长 。 从 标注 到 句法 分 析 ， 
为 了 进行 收 义 消解 ， 算 法 的 选取 显得 特别 重要 。 本 章 主 要 研究 句法 分 析 方 法 ， 从 标注 到 全 
分 析 ， 以 及 应 用 有 监督 的 机 器 学 习 方 法 进行 歧义 消解 。 


3.1 自然 语言 分 析 


在 语音 合成 应 用 中 ， 输 入 句子 转换 成 语音 输出 ， 听 起 来 像 说 母语 的 人 说 出 的 一 样 。 考 
虑 下 面 两 个 例子 〈 想 象 它们 读 出 来 而 不 是 写 出 来 )S : 

(DHe wanted to go for a drive in movie. 

@)He wanted to go for a drive in the country. 

在 第 二 个 句子 中 ， 单 词 drive Min 之 间 会 有 个 自然 的 停顿 ， 这 表明 句子 有 基本 的 内 部 
结构 。 句 法 分 析 提 供 的 结构 性 的 描述 可 以 识别 发 音 的 停顿 。 如 下 面 这 个 简单 的 例子 : 

(3 The cat lives dangerously had nine lives. 

在 这 个 例子 中 ， 语 音 合 成 系统 需要 知道 第 一 个 单词 lives 是 动词 ， 而 第 二 个 单词 Lives 
是 名 词 ， 才 能 做 出 正确 的 语调 发 音 。 这 是 词性 标注 的 一 个 实例 ， 句 中 的 每 个 单词 都 赋予 最 
可 能 的 词性 。 上 述 这 些 例子 来 源 于 开源 的 Festival 语音 合成 系统 (www. festvox. org), iX 
系统 利用 分 析 技 术 进 行 上 疏 义 消解 。 

句法 分 析 的 另 一 个 动机 是 自然 语言 的 自动 文摘 任务 ， 把 相同 主题 的 奉 干 文档 浓缩 成 
100—250 词 的 文摘 。 文 摘 可 以 用 来 〈 可 能 以 多 种 方式 ) 回答 文档 集合 的 问题 。 在 这 种 情 
况 下 ， 一 个 有 用 的 子 任 务 就 是 压缩 单个 句子 ， 仅 在 文摘 中 保留 相关 的 部 分 L1j。 这 使 得 文 
摘 精 确 、 信 息 量 大 、 流 利 。 下 例 中 ， 句 子 由 可 以 压缩 成 名 了 于 @): 

由 Beyond the basic level, the operations of the three products vary widely. 

(5) The operations of the products vary. 

完成 上 述 任务 的 一 个 优秀 方法 是 对 句子 进行 句法 分 析 ， 找 出 句子 的 不 同 成 分 : 把 句 
子 划 分 成 单独 的 短语 ， 比 如 动词 短语 、 名 词 短 语 。 对 第 @ 个 句子 的 句法 分 析 输 出 结果 如 
图 3-1 所 示 。 句 法 分 析 的 分 析 树 经 过 压缩 模型 编辑 ， 删 除 可 选择 成 分 ， 最 后 生成 原始 句子 
流利 的 压缩 句 。 


O 在 书面 语 表 述 中 ， 第 一 个 句子 的 drive in Z ASEEN. 
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图 3-1 4p irae ]-F OD B0 Sr SSR. AH E m PEU) 2H 7). PP. CD 和 ADVP, 产生 一 个 较 短 且 
流利 的 句子 : The operations of the products vary GX Ñ Knight 和 Marcu[ 1] 的 例子 ) 


男 一 个 例子 是 文本 复述 [2] 在 句子 @@ 中 ， 大 写 的 短语 EUROPEAN COUNTRIES 
可 以 在 不 改变 句子 基本 意思 的 情况 下 由 其 他 短语 复述 。 句 子 @ 四 一 @@ 中 的 斜体 就 是 该 短语 的 
复述 实例 。 这 种 短语 替换 不 是 简单 的 任意 词语 替换 ， 因 为 容易 导致 不 连贯 和 不 流畅 的 复 
述 。 复 述 模型 是 在 名 法 分 析 的 基础 上 进行 ， 识 别 目标 短语 成 分 ， 找 到 合适 的 替换 短语 ， 最 
终 对 原始 短语 进行 蔡 代 。 复 述 在 统计 机 器 翻译 等 领域 有 着 广泛 的 用 途 。 

@open borders imply increasing racial fragmentation in EUROPEAN COUNTRIES. 

(open borders imply increasing racial fragmentation in the countries of europe. 

(open borders imply increasing racial fragmentation in european countries. 

open borders imply increasing racial fragmentation in europe. 

(open borders imply increasing racial fragmentation in european countries. 

(Dopen borders imply increasing racial fragmentation in the european countries. 

在 现 阶 段 的 自然 语言 处 理 中 ， 和 句法 分 析 可 用 于 很 多 领域 而 不 仅 是 统计 机 器 翻译 [3]. 
文本 信息 抽取 [4]. mz dE [5]、 在 语言 生成 中 产生 实体 网 格 [6]、 文 本 错误 校正 
[7]、 从 语言 中 获取 知识 (例如 发 现 语义 类 或 x IS-A y X0 [8j]、 在 语音 识别 系统 中 作 
为 语言 模型 (语言 模型 为 候选 输出 句子 赋予 一 个 概率 一 句法 对 不 流利 的 或 有 错 的 语音 输入 
尤为 有 用 ) [7]、 对 话 系 统 [9]、 语 言 合成 系统 (www. festvox. org)。 句 法 分 析 是 多 语言 
处 理 任 务 的 必要 组 成 部 分 ， 现 已 有 多 种 自然 语言 的 句法 分 析 顺 。 


3.2 树 库 : 句法 分 析 的 数据 驱动 方法 


句法 分 析 可 以 揭示 输入 句子 的 不 明确 信息 。 这 意味 着 ， 分 析 器 需要 除了 输入 句子 之 外 
的 其 他 信息 : 句法 分 析 结 果 的 输出 形式 。 提 供 这 种 信息 的 一 种 方法 就 是 写 出 该 语言 的 文法 
规则 集合 。 例 如 ， 可 以 写 出 上 下 文 无 关 文 法 (Context-Free Grammer, CFG) 的 句法 规 
则 。 本 章 的 其 余部 分 都 假设 读者 熟悉 CFG (参考 Sipser L10」， 对 形式 文法 及 其 产生 的 形 
式 语 言 ， 尤 其 是 CFG， 有 很 好 的 介绍 )。 

下 面 是 一 个 CFG (以 简单 的 Barckus-Naur 格式 书写 )， 表 示 英 语 中 及 物 动 词 的 一 个 简 
单 文法 ， 及 物 是 可 以 带 主语 或 宾语 名 词 短 语 (Noun Phrase, NP) 的 动词 (V) ， 加 上 动词 
短语 (Verb Phrase, VP) 的 修饰 语 ， 如 介词 短语 (Prepositional Phrase, PP). 
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S -> NP VP 

NP -> ‘John’ | ‘pockets’ | D N | NP PP 

VP -> V NP | VP PP 

V -> ‘bought’ 

D -> ‘a’ 

N -> ‘shirt’ 

PP -> P NP 

P -> “with’ 

目 然 语言 文法 一 般 以 单词 w 作为 CFG 的 终结 符 ， 产 生 式 规则 为 X- 一 wo，X 一 般 代 表单 
io 的 词性 。 例 如 ， 在 CFG 的 产生 式 V— 'saw'， 表 示 词 性 的 符号 V 产生 动词 saw。 这 样 
的 非 终 结 符 称 为 词性 标记 或 者 前 终结 符 。 上 述 的 CFG 文法 可 以 对 句子 如 John bought a 
skirt with pockets 进行 句法 分 析 ，S 作为 开始 符 。 对 这 个 句子 采用 CFG 规则 进行 句法 分 
析 ， 得 到 两 种 可 能 的 推导 。 一 种 分 析 是 把 pockets 看 做 一 种 可 用 来 购买 skirt 的 流通 货币 ; 
另 一 种 分 析 理解 更 为 普遍 ， 即 John 购买 了 一 个 有 口袋 的 skirt。 


(S (NP John) (S (NP John) 
(VP (VP (V bought) (VP (V bought) 
(NP (D a) (NP (NP (D a) 
(N shirt))) (N shirt)) 
(PP (P vith) (PP (P with) 
(NP pockets)))) (NP pockets))))) 


然而 为 自然 语言 写 出 CFG 文法 进行 句法 分 析 是 有 问题 的 。 不 像 程 序 设 计 语 言 ， 目 然 
语言 太 过 复杂 以 至 于 不 能 够 列 出 所 有 的 CFG 规则 。 一 组 简单 的 文法 规则 不 考虑 文法 不 同 
组 成 部 分 的 交互 影响 。 可 以 考虑 拓展 文法 ， 包 括 更 多 的 结构 和 词汇 类 型 ， 但 是 对 于 语言 而 
言 列 出 所 有 的 句法 结构 是 项 很 困难 的 工作 。 男 外 ,穷尽 列 出 单词 的 所 有 性 质 也 是 困难 的 ， 
例如 ， 列 出 与 单词 有 关 的 所 有 语法 规则 ， 这 是 一 个 典型 的 知识 获取 问题 。 

除了 知识 获取 ， 仍 存在 一 个 明显 问题 : 规则 之 间 可 互相 作用 产生 组 合 爆炸 。 考 虑 一 个 
简单 的 CEG， 对 下 面 的 名 词 短 语 进行 句法 分 析 : 

N-> NWN 

N -> ‘natural’ | ‘language’ | ‘processing’ | ‘book’ 

递归 规则 产生 歧义 : N 作为 开始 符 ， 输 入 第 一 个 单词 natural 产生 一 棵 分 析 树 CN 
natural), ， 继 续 输 入 单词 natural language， 利 用 递归 规则 产生 一 棵 分 析 树 CN CN natural) 
(N language)) ， 继 续 输入 natural language processing， 应 用 递归 规则 两 次 ,产生 两 棵 分 


析 树 : 


(N (N (N natural) (N (N natural) 
(N language)) (N (N language) 
(N processing)) (N processing))) 


注意 到 这 个 句子 的 句法 分 析 歧 义 反映 了 真 层 义 : 这 是 一 种 自然 语言 处 理 吗 ? 还 是 语言 处 
理 的 一 种 自然 方式 ?这 个 问题 不 能 仅 通过 改变 书写 规则 的 形式 体系 得 以 解决 〈 例 如， 应 用 有 
限 状态 自动 机 ， 它 是 确定 性 的 ， 但 不 能 根据 单一 语法 同时 给 出 一 个 句子 的 两 个 意思 )。 任 何 
句法 规则 系统 都 应 当 表 示 出 这 种 歧义 。 然 而 ， 应 用 递归 规则 3 次 ， 可 以 得 到 句子 natural lan- 
guage processing book 的 5 种 分 析 树 ; 再 长 一 些 的 名 词 短语 ， 运 用 递归 4 次 ， 可 以 得 到 14 种 
分 析 树 ; 递归 5 次 ，42 种 分 析 树 ; 递归 6 次 ， 可 以 得 到 132 种 分 析 树 。 事 实 上， 对 于 CFG, 
运用 递归 nn 次 可 以 分 析 得 到 的 分 析 树 的 数目 为 Catalan 数 : 


SF EM 
Catlin = il] 


.S2* 9 x 45 


不 仅 是 并 列 结构， 如 名 词 短 语 ， 递 归 规 则 也 存在 于 修饰 证， 如 本 节 开 始 部 分 提 到 的 
CFG 产生 式 VP 一 VP PP 中 的 介词 短语 。 事 实 上 ， 人 介词 短语 修饰 语 的 歧义 并 非 独 立 于 并 列 
结构 歧义 : 在 两 类 歧义 都 存在 的 句子 中 ， 输 入 句子 的 句法 分 析 树 数目 等 于 子 文法 的 分 析 树 
数目 的 叉 积 。 这 使 得 句法 分 析 的 时 间 复 杂 度 很 高 。 对 n 个 单词 的 输入 甸子， 其 所 有 可 能 的 
分 析 树 是 n RREK. 

对 大 多 数目 然 语 言 处 理 任务 ， 不 需要 搜索 整个 歧义 空间 ， 即 使 〈 本 节 后 面 会 提 到 ) 
我 们 可 在 多 项 式 时 间 内 (对 CFG, ERREI OCn* )) 把 指数 数量 级 的 分 析 树 数目 进 
行 压缩 ， 产 生 一 个 紧 致 的 表示 ， 并 且 存 储 在 多 项 式 空间 内 (对 于 CFG， 所 需 空 间 在 n 
的 数量 级 ) 。 

例如 ， 对 输入 句子 natural language processing book, FA CFG 分 析 得 到 的 5 种 分 析 树 
中 ， 仅 有 一 种 是 正确 的 CEJ a book about the processing of natural language) : 

(N (N (N (N natural) 


(N language)) 
(N processing) ) 
(N book)) 


这 是 第 二 种 知识 获取 问题 。 不 仅 需 要 知道 一 种 语言 的 句法 规则 ， 还 需要 知道 输入 句子 
的 各 种 分 析 结 果 中 ， 哪 种 分 析 最 合理 。 树 库 的 构建 采用 句法 分 析 数 据 驱 动 的 方法 ， 可 以 一 
次 性 解决 两 种 知识 获取 的 瓶颈 问题 。 

树 库 简 单 来 说 是 句子 的 集合 (也 称 文 本 语料库 )， 其 中 每 个 句子 都 有 完整 的 句法 分 析 
结果 。 每 个 句子 的 句法 分 析 结 果 都 由 人 类 专家 判定 以 作为 该 句 最 合理 的 分 析 。 在 人 工 标 注 
阶段 ， 需 要 重点 关注 ， 以 保证 对 相关 的 语法 现象 进行 了 一 致 的 处 理 。 典 型 地 ， 在 人 工 标 注 
开始 前 ， 先 制定 一 个 标注 指南 ， 以 保证 树 库 标 注 的 一 致 性 。 

树 库 没有 提供 句法 规则 或 语言 文法 ， 也 没有 明确 地 列 出 句法 结构 。 事 实 上， 即使 树 库 
中 隐 含 着 一 个 句法 假设 ， 也 不 可 能 存在 穷尽 的 规则 集 。 关 于 句法 更 细 粒 度 的 假设 经 常用 作 
为 标注 指南 ， 以 帮助 人 类 专家 标注 语 料 时 ， 产 生 语 料 库 中 句子 的 单个 最 合理 的 句法 分 析 。 
树 库 中 句法 分 析 的 一 致 性 可 以 通过 标注 者 间 的 一 致 性 来 衡量 ， 即 不 止 一 个 标注 者 标注 大 约 
1076 f] CER TRUE. 

树 库 解 决 了 我 们 前 面 讨 论 的 知识 获取 的 两 个 瓶颈 问题 。 树 库 提 供 了 大 量 句子 示例 的 句 
法 结构 的 标注 ， 可 以 运用 有 监督 的 机 器 学 习 方 法 ， 通 过 适当 泛 化 树 库 的 训练 语 料 ， 训 练 一 
个 句法 分 析 器 ， 对 输入 句子 进行 句法 分 析 。 

树 库 通 过 找 出 隐 含 在 句法 分 析 树 中 的 文法 解决 了 第 一 个 知识 获取 问题 ， 因 为 句法 分 析 
树 而 不 是 文法 已 经 直接 给 出 了 。 事 实 上 ， 句 法 分 析 器 不 一 定 需要 显 式 的 文法 规则 集 ， 只 要 
它 可 以 忠实 地 对 输入 句子 产生 一 个 句法 分 析 树 ， 尽 管 训 练 的 句法 分 析 器 使 用 的 信息 也 可 以 
被 认为 代表 了 一 些 隐 式 的 文法 规则 集 。NivreL11] 进一步 讨论 了 应 用 文法 进行 分 析 和 应 用 
数据 驱动 的 方法 进行 分 析 的 微妙 差别 (数据 驱动 的 方法 不 一 定 是 基于 文法 的 )。 

树 库 同样 也 解决 了 第 二 个 知识 获取 问题 。 因 为 树 库 里 的 每 个 句子 已 给 出 最 合理 的 句法 
分 析 ， 有 监督 的 机 器 学 习 方 法 可 以 用 来 学 习 一 个 评分 函数 ， 对 所 有 可 能 的 句法 分 析 结 果 打 
分 。 用 树 库 训练 的 统计 句法 分 析 器 试图 模仿 人 类 的 标注 决策 ， 应 用 输入 的 某 些 指示 以 及 分 
析 器 先前 的 决策 结果 ， 来 学 习 评分 函数 。 对 在 训练 数据 中 未 出 现 的 句子 ， 统 计 句 法 分 析 融 
应 用 评分 函数 返回 得 分 最 高 的 一 个 句法 分 析 结 果 ， 这 被 当 作 该 句子 最 合理 的 分 析 。 评 分 范 
数 也 可 以 用 来 对 句子 产生 k-best 句法 分 析 。 

两 种 主要 的 句法 分 析 方 法 用 来 构建 树 库 : 依存 图 和 短语 结构 树 。 这 两 种 表示 相互 之 间 
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很 接近 ， 在 一 定 假 设 条 件 下 ， 一 种 表示 也 可 以 转换 成 另 一 种 。 依 存 分 析 一 般 用 于 词 序 较 自 
由 的 语言 ， 比 如 捷克 语 、 土 耳 其 语 ， 其 谓词 - 论 元 在 句 中 的 顺序 可 变 ; 短语 结构 树 分 析 一 
般 用 于 词 序 较 固定 的 语言 ， 如 英语 、 法 语 ， 可 提供 长 距离 的 依存 信息 。 
本 章 的 其 余部 分 介绍 了 构建 句法 分 析 器 的 3 个 主要 部 分 : 3. 3 节 涉 及 利用 不 同 语言 知 
识 来 构建 树 库 ，3. 4 节 处 理 指数 级 的 搜索 空间 ; 3. 5 节 提 供 评价 分 析 树 的 方法 ， 找 出 最 可 
能 的 分 析 结 果 。 


3.3 句法 结构 的 表示 
3.3.1 使 用 依存 图 的 句法 分 析 


依存 图 的 主要 思想 是 连接 短语 的 中 心 词 与 其 依存 词 。 用 有 向 边 〈 因 此 不 对 称 ) 把 中 心 
词 与 依存 词 连接 起 来 [12]。 依 存 图 与 短语 结构 树 一 样 ， 是 和 很 多 不 同 的 语言 学 框架 一 致 
的 一 种 表示 方法 。 中 心 词 与 依存 词 的 依存 关系 可 以 是 语义 上 的 (中 心 词 -修饰 语 ，head- 
modifier)， 也 可 以 是 句法 上 的 (中 心 词 - 限 定语 ，head-specifier)。 依 存 图 与 短语 结构 树 的 
主要 不 同 是 ， 依 存 分 析 一 般 对 句法 结构 做 最 小 的 假设 ， 并且 避免 隐藏 结构 的 任何 标注 ， 例 
如 ， 用 空 元 素 作 为 占 位 符 以 表示 缺失 、 取 代 谓 词 = 论 元 或 任何 不 必要 的 层次 结构 。 输 入 名 
子 的 单词 被 视 为 图 中 的 节点 ， 节 点 之 间 用 有 向 弧 连 接 起 来 表示 名 法 的 依存 性 。CoNLL2007 
依存 分 析 共 享 任务 [13] 上 分 享 了 任务 ， 提 供 了 下 述 依存 图 的 定义 : 

基于 依存 的 句法 分 析 ， 其 任务 是 通过 识别 句子 每 个 单词 的 句法 中 心 ， 推 导出 输入 句子 
的 句法 结构 。 定 义 依 存 图 为 : 其 节点 是 输入 句子 的 单词 ， 弧 是 二 值 关 系 ， 从 中 心 词 指向 依 
存 词 。 经 常 (但 不 总 是 ) 假定 所 有 单词 除了 一 个 之 外 都 具有 和 名 法 中 心 词 ， 这 意味 着 图 是 一 
棵 有 一 个 独立 节点 作为 根 的 树 。 在 有 标签 的 依存 分 析 中 ， 我 们 同时 需要 分 析 器 为 每 个 中 心 
词 和 依存 词 之 间 的 依存 关系 指定 一 个 特定 的 类 型 (或 者 标签 )。 

据 此 定义 ， 我们 只 考虑 依存 树 分 析 ， 其 中 每 个 单词 都 准确 地 依存 于 一 个 父 节点 ， 或 者 
其 他 单词 或 虚拟 的 根 符 号 。 按 规定 ， 在 依存 树 中 索引 0 被 用 来 表示 根 符号 ， 有 了 向 统 从 中 心 
词 指 向 依存 词 。 例 如 ， 图 3-2 展示 了 一 个 捷克 句子 的 依存 树 ， 句 子 来 源 于 布拉格 依存 树 
库 ， 这 是 一 个 标记 了 依存 树 的 捷克 语文 本 的 大 语料库 。 每 个 树 库 都 有 自己 的 标注 风格 ， 布 
拉 格 树 库 也 标注 了 其 他 信息 ， 比 如 主题 和 句子 焦点 结构 ， 但 是 我 们 这 里 只 展示 依存 树 
信息 。 

有 很 多 不 同 的 依存 句法 分 析 ， 但 是 依存 树 的 基本 文本 结构 可 以 按 下 列 形式 写 出 ， 在 名 
子 中 每 个 依存 词 明 确 指定 一 个 中 心 词 ， 并 且 仅 有 一 个 单词 依存 于 句子 的 根 节点 。 下 面 展 示 

[63] 了 一 个 典型 的 有 标签 的 依存 树 的 原文 表示 : 
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图 3-2 布拉格 依存 树 库 中 的 一 个 捷克 语句 子 的 依存 图 句法 分 析 实 例 。 图 中 每 个 节点 是 一 个 词 、 
词性 、 在 句子 中 的 位 置 的 三 元 组 。 例 如 [fakulte，N3, 7] 是 句子 的 第 7 个 词 ， 词 性 为 
N3， 受 格 。 节 点 [#，ZSB，0] 是 依存 树 的 根 节点 。 每 个 节点 都 添加 了 英语 翻译 


依存 分 析 中 一 个 重要 的 概念 是 投射 性 (projectivity)， 是 由 单词 之 间 依 存 的 线性 词 序 
决定 的 一 种 约束 [14]。 如 果 我 们 把 根 符号 在 第 一 位 置 的 句子 的 单词 按照 线性 顺序 排列 ， 
那么 单词 之 间 的 依存 弧 画 出 来 没有 任何 的 交叉 ， 就 是 投射 性 依存 树 (projective dependen- 
cy tree) 。 投 射 性 的 另 一 种 表述 是 ， 对 句子 的 每 个 单词 ， 其 后 代 形 成 一 个 句子 的 连续 子 串 。 
例如 ， 图 3-3 展示 了 一 个 英语 句子 的 依存 分 析 ， 该 句子 右 端 有 个 后 置 的 名 词 短 语 作为 修饰 
语 ， 结 果 是 需要 交叉 依存 。 然 而 ， 英 语 在 树 库 中 有 很 少 的 例子 需要 这 样 的 非 投 射 分 析 。 在 
其 他 语言 中 ， 比 如 捷克 语 、 土 耳 其 语 ， 非 投射 分 析 的 数量 就 比较 高 。 交 叉 依 存 即 使 是 在 这 
些 语言 中 ， 在 整个 依存 数量 中 所 占 的 比例 也 很 小 。 然 而 ， 在 一 定 比 例 的 句子 中 包括 至 少 一 
个 交叉 依存 ， 这 在 一 些 语 言 中 也 是 一 个 重要 的 问题 。 表 3-1 包含 多 种 语言 交叉 依存 的 对 
比 ， 这 是 CoNLL2007 依存 分 析 共 享 任务 的 一 部 分 。 


root Chris Saw a“ dog yesterday which ` was" blind 


图 3-3 具有 交叉 依存 的 无 标签 非 投 射 依 存 树 


表 3-1 交叉 依存 比例 的 多 种 语言 对 比 和 非 投 射 句 子 的 比例 ,来自 CoNLL2007 共享 任务 数据 集 。Ar= Ara- 
bic, Ba= Basque, Ca=Catalan, Ch= Chinese, Cz= Czech, En- English, Gr — Greek、Hu= Hu- 
garian、It=ltalian、Tu=Turkish。 注 意 一 些 依 存 树 的 例子 是 由 原始 的 短语 结构 树 通 过 一 些 启 发 式 
规则 转换 来 的 。 来 自 Nivre 等 [13] 
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在 树 库 中 ， 依 存 图 没有 详尽 地 区 别 投射 和 非 投 射 依存 树 分 析 。 然 而 ， 分 析 算法 经 常 区 
别 投射 和 非 投射 依存 。 让 我 们 进一步 应 用 CFG 文法 检测 这 种 区 别 。 注 意 ， 我 们 可 以 在 
CFG 中 设置 依存 连接 。 例 如 ， 考 虑 下 述 文法 : 


X0 2 -> X0. 1* X2 1 
XO. 1 -> xO* 
12.1 => X1.1 12.2* 
X1.1 => gis 
Z2 4 -> X2.3* X3.1 


X2.3 -> x2* 
X3_1 -> x3* 


在 这 个 CFG H, x0, xl, x2, x3 是 终结 符 ， 每 条 规则 最 右 部 的 星 号 表示 依存 连接 。 
可 以 把 星 号 看 做 一 个 非 终 结 符 上 的 独立 标记 或 者 看 做 概率 上 下 文 无 关 文 法 (Probalistic 
Contex-Free Grammar, PCFG) 中 一 个 新 的 非 终 结 符 。Abney [15] 对 投射 依存 图 的 
PCFG 形式 提供 了 更 详细 的 对 比 ， 并 在 细节 上 讨论 了 它们 的 等 价 性 。 在 本 例 中 ， 等 价 于 前 
面 的 CFG 的 依存 树 如 下 所 示 : 


í dq 
我 们 可 以 证 明 ， 如 果 把 依存 树 转换 成 等 价 的 CFG (应 用 上 面 的 记号 )， 那 么 依存 树 是 
投射 性 的 。 在 由 依存 树 转换 来 的 CFG 中 ， 我 们 得 到 仅 有 的 下 面 3 条 规则 ， 其 中 一 条 规则 
是 引入 终结 符 ， 其 余 两 条 规则 是 Y 依赖 于 X, RIK. Pin) X AY 可 以 由 下 面 的 
星 号 跟踪 。 


Z -> X* Y 
Z -> X Y* 
A 一 > a* 


假定 我 们 有 一 棵 非 射 影 依存 树 ， 例 如 : 


用 星 号 标记 将 这 棵 依存 树 转 换 为 CFG， 给 予 我 们 两 种 选择 。 一 种 可 以 描述 为 X3 依赖 
T X2, 但 是 不 能 描述 为 X1 依赖 于 X3: 

X2 3 -> X1.1 X2_2* 

X1.1-» xl 

12.2 -> X2_i# X3_1 

12.1 -> x2 

X3.1 -> x3 


另 一 种 可 以 描述 为 X1 依赖 于 X3， 但 是 不 能 描述 为 X3 依赖 于 X2: 


X2.3 -> X1.1 X3, 2* 
X1.1 -> xi 
X3.2 -> X2.1 X3_1* 
12.1 -> x2 
A3.1 -> x3 
事实 上 ，CFG 不 能 描述 非 投射 性 依存 。 投 射 性 可 以 定义 如 下 : 对 句子 的 每 个 单词 ， 其 子 
节点 形成 句子 的 连续 子 串 。 因 此， 非 投射 性 可 以 定义 如 下 : 非 投 射 依存 意味 着 句子 中 有 一 个 
i] (或 等 价 地 ， 由 依存 树 创建 的 CFG 的 一 个 非 终 结 符 )， 其 子 节点 不 能 形成 句子 的 连续 子 
串 。 换 句 话说， 对 poo 存在 一 个 QZ 可 以 推导 出 跨度 Cri, m) 以 及 (zs+p，Z)。 这 意味 着 
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一 定 有 规则 Z-- PQ, HP PES Cri, x FHA Q 推 导出 Cros xj. 然而， 由 定义 ， 
M24 k—0 时 ， 这 种 推导 在 CFG XGE FALE. BA PALQ-—áxEJ&XESET HR. PU, dE 
投射 性 依存 的 依存 树 不 能 转换 成 等 价 的 〈 星 号 标记 的 ) CFG. 

这 就 用 CFG 给 了 投射 依存 一 个 有 用 的 鉴证 。 如 果 我 们 想 要 一 个 仅 得 到 投射 依存 的 依 
存 分 析 器 ， 则 可 以 隐 含 地 创建 一 个 等 价 的 CFG， 这 样 就 会 忽略 所 有 非 投 射 依存 。 当 我 们 讨 
论 分 析 算 法 时 会 进一步 研究 这 个 话题 。 


3.3.2 使 用 短语 结构 树 的 句法 分 析 


句子 的 短语 结构 句法 分 析 源 于 传统 的 句子 图 解法 ， 即 把 句子 分 割 为 组 成 成 分 ， 较 大 的 
组 成 成 分 由 较 小 的 组 成 成 分 合并 得 到 。 短 语 结 构 分 析 通 常 吸收 生成 文法 (来自 语言 学 ) 的 
观点 处 理 组 成 成 分 调 序 或 者 明显 的 中 心 词 与 依存 词 之 间 的 长 距离 关系 。 短 语 结 构 树 可 以 被 
视 为 隐 含 地 与 谓词 - 论 元 结构 联系 在 一 起 。 例 如 ， 下 列 句子 Mr. Baker seems especially sen- 
sitive 的 短语 结构 分 析 (来 自 英语 宾 州 树 库 )， 句 子 的 主语 用 - SBJ 标记 ， 句 子 的 谓词 用 
- PRD 标记 。 基 本 的 谓词 - 论 元 结构 在 树 下 面 展 示 ， 使 用 由 短语 结构 树 描 述 的 信息 的 非 正 式 
标注 。 

(S (NP-SBJ (NNP Mr.) 

(NNP Baker)) 
(VP (VBZ seems) 
(ADJP-PRD (RB especially) 
(JJ sensitive)))) 

谓词 - 论 元 结构 : 

seems((especially(sensitive))(Mr. Baker)) 

对 上 面 同一 个 句子 可 得 到 下 面 的 依存 树 分 析 。 应 当 注 意 一 些 短语 结构 树 中 括号 标签 内 
的 信息 是 如 何 映 射 到 依存 分 析 的 有 标记 的 弧 上 。 通 常 ， 依 存 分 析 不 会 直接 连接 主语 与 谓 
语 ， 因 为 这 会 在 seems 和 根 符号 之 间 带 来 不 便利 的 交叉 依存 。 


ROOT PRD 


AMOD 
NMOD SB) EU ae 
root Mr. Baker seems especially sensitive 


为 了 解释 树 库 中 短语 结构 分 析 的 一 些 细 节 ， 我 们 使 用 句法 分 析 的 一 些 例子 来 说 明 空 元 
K 〈 没 有 输出 的 组 成 成 分 ) 在 树 结构 中 如 何 被 用 来 确定 谓词 - 论 元 间 的 依存 关系 。 这 些 例 
子 选 自 文献 [16]， 描 述 了 英语 宾 州 树 库 的 标注 标准 。 英 语 宾 州 树 库 是 用 短语 结构 树 标 注 
了 摘自 《华尔街 日 报 》 的 40 000 个 句子 的 工程 。 为 了 简化 短语 结构 树 ， 单 词 的 词性 标签 
被 省 略 。 

在 第 一 个 例子 ， 我 们 看 到 NP 支配 一 个 “ 迹 ” 标 记 * Tx ， 表 示 空 元 素 ， 与 形式 语言 
理论 中 的 符号 < 一样， 表示 空 输入 。 这 个 空 标 记 有 索引 值 〈 这 里 是 1， 但 是 实际 值 是 不 重 
要 的 )， 并 且 与 句子 组 成 成 分 WHNP 有 相同 的 索引 值 。 这 个 共同 的 索引 值 使 得 我 们 可 以 推 
断 句 子 的 谓词 - 论 元 结构 〈 显 示 在 短语 结构 树 下 面 )。 


(SBARQ (WHNP-1 What) 
(SQ is (NP-SBJ Tim) 
(VP eating (NP *T*-1))) 
?) 


谓词 - 论 元 结构 : 


50 g—32 H ts 


eat(Tim, what) 


在 第 二 个 例子 中 ， 由 于 在 被 动 语 态 中 句子 的 主语 被 置换 ， 句 子 的 主语 The ball 实际 上 不 
是 句子 谓词 的 逻辑 主语 。 句 子 的 逻辑 主语 Chris， 被 标记 为 -LGS， 从 而 保证 了 这 个 句子 的 谓 
词 - 论 元 结构 的 恢复 。 
(S (NP-SBJ-1 The ball) 
(VP was (VP thrown) 
(NP *-1) 
(PP by (NP-LGS Chris)))) 


谓词 - 论 元 结构 : 
throw(Chris, the ball) 


第 三 个 例子 展示 了 不 同 的 句法 现象 在 语料库 中 经 常 被 结合 在 一 起 ， 并 且 两 种 分 析 被 结 
合 起 来 用 以 提供 这 些 情 况 下 谓词 - 论 元 的 结构 。 

(SBARQ (WHNP-1 Who) 

(SQ was (NP-SBJ-2 *T*-1) 

(VP believed (S (NP-SBJ-3 *-2) 
(VP to (VP have 
(VP been 
(VP shot 
(NP *-3)))))))) 

?) 
谓词 - 论 元 结构 : 
believe(*someone*, shoot(*someone*, who)) 


第 四 个 例子 展示 了 空 元 素 如 何 被 用 来 标记 缺失 的 谓词 主语 ， 即 使 谓词 主语 没有 直接 出 
现在 句 中 。 在 第 一 种 情况 下 ， 树 库 中 短语 结构 标记 出 缺失 的 take back 的 主语 ， 即 动词 
persuaded 的 宾语 。 


(S (NP-SBJ (PRP They)) 
(VP (VP (VBD persuaded) 
(NP-1 (NNP Mr.) 
(NNP Trotter)) 
(S (NP-SBJ (-NONE- *-1)) 
(VP (TO to) 
(VP (VB take) 
(NP (PRP it)) 
(PRT (RB back)))))))) 


谓词 - 论 元 结构 : 
persuade(they, Mr. Trotter, take back(Mr. Trotter, it)) 


在 第 二 种 情况 下 ， 树 库 中 短语 结构 标记 出 缺失 的 take back 的 主语 ， 即 动词 promised 
的 主语 。 
(S (NP-SBJ-1 (PRP They)) 
(VP (VP (VBD promised) 
(NP (NNP Mr.) 
(NNP Trotter)) 
(S (NP-SBJ (-NONE- *-1)) 
(VP (TO to) 
(VP (VB take) 
(NP (PRP it)) 
(PRT (RB back)))))))) 
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谓词 - 论 元 结构 : 

promise(they, Mr. Trotter, take back(they, it)) 

Xf persuaded 和 promised 的 依存 分 析 不 会 做 这 种 区 分 。 对 上 例 中 两 个 句子 的 依存 分 
析 将 会 是 一 样 的 ， 如 下 所 示 : 


1 They PRP 2 SBJ 1 They PRP 2 SBJ 
2 persuaded VBD O ROOT 2 promised VBD O ROOT 
3 Mr. NNP 4 NMOD 3 Mr. NNP 4 NMOD 
4 Trotter NNP 2 IOBJ 4 Trotter NNP 2 IOBJ 
5 to TO 6 VMOD 5 to TO 6 VMOD 
6 take VB 2 OBJ 6 take VB 2 OBJ 
T EE PRP 6 OBJ f it PRP 6 OBJ 
8 back RB 6 PRT 8 back RB 6 PRT 
9 En RM 9 2?P 


然而 ， 当 指出 依存 树 库 和 短语 结构 树 库 中 标记 思想 的 差异 时 ， 注 意 用 短语 结构 树 库 
训练 的 大 多 数 的 统计 分 析 器 通常 忽略 这 些 差 异 。 逻 辑 主 语 、 空 元 素 等 大 量 的 标记 在 现代 
分 析 需 中 几乎 都 被 忽略 。 已 经 有 一 些 工作 在 试图 恢复 空 元 素 ， 其 最 初 被 用 在 英语 宾 州 树 
库 中 ， 而 在 训练 统计 分 析 器 时 被 丢弃 。 例 如 ，Johnson [17] 在 后 处 理 阶段 恢复 了 空 元 
素 并 且 识 别 它 们 的 先行 词 。 由 Rimell, Clark, Steedman [18] 提出 的 评估 模板 ， 就 先前 
在 几 个 例子 中 展示 的 每 个 句子 谓词 - 论 元 结构 的 恢复 而 言 ， 展 示 了 如 何 比 较 不 同 的 分 
Fr AF o 

同 种 语言 的 不 同 树 库 ， 或 者 不 同 种 语言 的 同 种 树 库 ， 短 语 结构 标记 可 能 会 有 很 大 的 不 
同 。 符 号 的 选择 以 及 符号 的 意义 会 有 不 同 。 下 面 的 例子 来 自 中 文 树 库 ， 符 号 IP 用 来 代替 
S， 这 反映 了 从 基于 短语 结构 的 英语 宾 州 树 库 转换 文法 到 基于 支配 约束 (Goverment Bind- 
ing, GB) 的 短语 结构 的 转变 。 不 同 之 处 还 会 与 特殊 的 句法 结构 有 关 。 在 下 例 中 ， 对 所 有 
格 “ 的 ”做 了 特别 分 析 ， 导 致 对 “新 的 ”的 包含 几 个 空 元素 的 、 相 当 复 杂 的 结构 分 析 ， 其 
中 一 个 空 元 素 是 WHNP， 即 使 中 文 并 没有 关系 代词 。 为 了 理解 整个 树 库 中 从 名 和 类 从 名 
成 分 的 短语 结构 一 致 性 ， 需 要 这 种 结构 。 这 些 不 同意 味 着 ， 最 初 在 英语 分 析 上 开发 并 在 区 
语 树 库 上 训练 的 短语 结构 分 析 器 不 容易 适用 于 男 一 种 语言 ， 即 便 这 种 语言 有 短语 结构 树 
FÉ. Levy 和 Manning [19] 讨论 了 把 基于 CFG 分 析 器 (最 初 为 英语 分 析 开 发 ) 用 于 中 文 
短语 结构 树 库 训 练 的 中 文句 法 分 析 过 程 中 的 很 多 挑战 。 


(IP (NP-SBJ (NP (NN 结 售 /settlement and sale) 
(NN 制度 /system)) 
(CC 和 /and) 
(NP (CP (WHNP-2 (-NONE- *0P*)) 
(CP (IP (NP-SBJ (-NONE- *T*-2)) 
(VP (VA 新 /new))) 
(DEC 的 ))) 
(NP (NN 核 销 /verification and cancellation) 
(NN 制度 /system)) )) 
(VP (PP-LOC (P 在 /in) 
(NP-PN (NR 西藏 /Tibet))) 
(ADVP (AD 全 面 /fully)) 
(VP (VV 实施 /operating)))) 


英语 翻译 为 : 


A (foreign exchange) settlement and sale system and a verification and 
cancellation system that is newly created is fully operational in Tibet. 
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3.4 分析 算 法 


给 定 输入 句子 ， 分 析 器 给 出 句子 的 输出 分 析 ， 我 们 假定 这 种 分 析 与 用 于 训练 分 析 器 的 
树 库 保 持 一 致 。 树 库 分 析 器 不 需要 详细 的 文法 ， 但 是 为 了 使 得 分 析 算 法 的 解释 更 简单 dE 
们 首先 考虑 分 析 算 法 假定 存在 一 个 CFG 文法 。 

考虑 下 面 简单 的 CFG 文法 G， 可 以 用 来 推导 字符 串 ， 例 如 开始 符 为 N 的 字符 串 a and 
bor c; 

N -> N ‘and’ N 

N -> N ‘or’ N 

N-» a’ | ki fc? 

分 析 的 一 个 很 重要 的 概念 是 推导 (derivation), XI-T 8 A LAB "a and bor c", F 
面 的 动作 序列 由 三 过 符号 分 开 ， 表 示 一 系列 步骤 ， 称 为 推导 : 

N 

=> N for’ N 

=> N ‘or c’ 

=> N ‘and’ N ‘or c’ 

=> N ‘and b or c’ 

=> ‘a and b or c’ 

在 这 个 推导 中 的 每 一 行 称 为 句 型 (sentential form) 。 此 外 ， 推 导 的 每 一 行 都 应 用 CFG 
规则 ， 是 为 了 说 明 输 入 可 以 由 开始 符 N 推导 出 。 在 上 述 推导 中 ， 我 们 限制 每 个 句 型 仅 从 最 
右 非 终结 符 开始 扩展 。 这 种 方法 称 为 使 用 CFG 输入 的 最 右 推导 (rightmost derivation). 
如 果 我 们 把 推导 按 相反 的 次 序 显示 ， 则 最 右 推 导 的 一 个 有 意思 的 性 质 就 显示 了 出 来 : 


‘a and b or œ? 


=> N ‘and b or c? # 使 用 规则 N -> a 
=> N ‘and’ N "or c? # 使 用 规则 N -> b 
=> N ‘or c? # 使 用 规则 N -> N and N 
=> N for’ N # 使 用 规则 N -> c 
=> N # 使 用 规则 N -> N or N 
这 种 推导 序列 与 下 面 的 从 左 到 右 的 句法 树 构 建 完 全 相同 ， 每 次 一 个 符号 。 
(N (N (N a) 
and 
(N b)) 
or 
(N c)) 


然而 ， 不 能 保证 得 到 一 个 唯一 的 推导 序列 。 可 能 会 有 很 多 不 同 的 推导 ， 正 如 我 们 前 面 
看 到 的 ， 推 导 的 数目 随 输入 长 度 的 增加 而 呈 指 数 增长 。 例 如 ， 存 在 为 一 个 最 右 推导 产生 下 


面 的 分 析 树 : 
(N (N a) 
and 
(N (N b) 
or 
(N c))) 
‘a and b or c? 
-» N 'and b or c? 4 使 用 规则 N -> a 
=> N ‘and’ Nor € * 使 用 规则 N -> b 
=> N ‘and’ N ‘or’ N # 使 用 规则 N -> c 
=> N ‘and’ N 4 使 用 规则 N-»NorN 
=> N # 使 用 规则 N -> N and N 
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3.4.1 移 进 归 约 分 析 


为 了 构建 一 个 分 析 器 ， 我 们 需要 设计 一 个 算法 ， 该 算法 对 任何 文法 以 及 任何 输入 句子 
都 能 够 执行 之 前 的 最 右 推导 。 每 一 个 CFG 文法 都 有 一 个 自动 机 与 之 等 价 ， 称 为 下 推 自 动 
机 (正如 正则 表达 式 可 以 转换 为 有 限 状 态 目 动 机 )。 下 推 自动 机 是 一 种 简单 的 有 限 状 态 自 
动机 ， 具 有 栈 形 式 的 额外 的 内 存 。 这 是 一 个 限量 的 内 存 ， 因 为 只 有 栈 顶 元 素 被 机 器 使 用 .。 
这 提供 了 一 种 分 析 算 法 ， 适 用 于 任何 给 定 的 CFC 文法 和 输入 字符 串 。 这 种 算法 称 为 移 进 
归 约 (shift-reduce) 分 析 ， 使 用 两 种 数据 结构 : 输入 字符 的 缓冲 区 和 存储 CFG 符号 的 栈 ， 
该 算法 定义 如 下 : 
1) 以 空 栈 和 包含 输入 字符 的 缓冲 区 开始 ; 
2) 如 果 栈 顶 元 素 包 含 文法 的 开始 符 并 且 缓 冲 区 为 空 ， 则 返回 成 功 ; 
3) 选择 下 面 的 两 个 步骤 之 一 〈 如 果 选 择 有 歧义 ， 则 按照 预定 义 的 策略 ) : 
。 把 符号 从 缓冲 区 移 人 栈 ; 
。 WRM k TFS Eaa ar, MEA CFG 规则 Aaa: ar 的 右边 部 分 ， 则 
用 非 终 结 符 A (规则 左边 部 分 ) 取代 栈 顶 的 & 个 符号 aaa); 
4) 如 果 上 一 步 没有 相应 动作 ， 则 返回 失败 ; 
5) 否则 ， 回 到 步骤 2。 
对 本 节 前 部 分 出 现 过 的 CFG 文法 G 以 及 输入 “a and b or c”, RIER 3-4 展示 了 移 
进 归 约 分 析 算 法 的 每 个 步骤 。 


a and b or c 初始 化 
a and b or c 移 进 a 
(N a) and b or c 归 约 N->a 
(N a) and borc #% it and 
(N a) and b or c 移 进 b 


(N a) and (N b) ore 归 约 N->b 

(N (N a) and CN b)) Or c H% N->a 

(N (N a) and (N b)) or % it or 

CN (N a) and (N b)) orc 移 进 c 

(N (N a) and (N b)) or CN c) 归 约 N->c 

(N (N (N a) and (N b)) or CN c2) IH £3 N->n or N 
CN (N (N a) and (N b)) or CN c)) 接受 





图 3-4 对 本 节 开 始 定 义 的 CFG XA GURA “aand bor c”， 移 进 归 约 分 析 算 法 的 每 个 步骤 


该 算法 也 适用 于 依存 分 析 ， 应 用 移 进 归 约 分 析 器 对 上 个 例子 进行 依存 分 析 如 图 3-5 所 
示 。 在 每 一 步 ， 分 析 器 会 选择 : 或 者 移 新 词 人 栈 或 者 用 中 心 词 一 依存 词 连接 或 依存 词 一 中 
心 词 连接 结合 栈 顶 两 个 元 素 。 当 在 统计 依存 分 析 器 中 使 用 移 进 归 约 算法 时 ， 应 尽 可 能 把 移 
进 和 归 约 步骤 合并 。Nivre [20] 讨论 了 其 他 分 析 方 法 ， 对 分 析 噩 行为 和 统计 决策 之 间 的 
关系 有 不 同 处 理 。 


3.4.2 超 图 和 线 图 分 析 


移 进 归 约 分 析 可 以 在 线性 时 间 内 分 析 ， 但 是 要 在 不 犯错 误 的 情况 下 。 对 于 一 般 的 CFG 
文法 ， 在 最 坏 的 情形 下 ， 这 样 的 分 析 占 可 能 要 借助 于 回 滴 ， 这 意味 着 要 重新 分 析 输 入 ， 这 
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样 就 导致 了 在 最 坏 的 情形 下 时 间 随 着 文法 大 小 呈 指 数 增长 。 男 一 方面 ，CFG 文法 的 最 坏 
情况 分 析 算 法 的 复杂 度 为 Ol(mw )， 其 中 为 输入 句子 的 长 度 。 这 种 算法 的 多 种 变化 形式 常 
用 于 统计 分 析 器 ， 试 图 搜索 所 有 可 能 的 分 析 树 空间 ， 而 不 受 限 于 纯 自 左 至 右 的 分 析 。 


root aandborc 初始 化 
root a and b or c 移动 a 
rootaand borc 移动 and 


root and borc a —— and 
root and b 移动 b 
root and and — b 


root and or 移动 or 


root or 


root or c 


root or 





图 3-5 ”对 于 依存 分 析 ， 移 进 归 约 分 析 算 法 的 步骤 


我 们 的 CFG 文法 G 的 实例 如 下 所 示 : 
N -> N ‘and’ N 
N -> N for’ N 


N -> ‘a’ | | fe? | 

可 以 重 写 为 新 的 CFG 文法 G.， 其 右边 至 多 包含 两 个 非 终结 符 。 这 可 以 通过 引入 两 个 
新 的 非 终 结 符 N-A Nv 做 到 : 

N -> N N^ 

N^ -> ‘and’ N 

N -> N Nv 

Nv -> ‘or’ N 

N => Sat Lh th?) fe’ 


对 这 种 分 析 算法 的 一 个 关键 性 认 知 是 ， 我 们 可 以 通过 创建 一 个 新 的 CFG， 把 上 面 的 
CFG 文法 G. 针对 一 个 特定 的 输入 字符 串 进行 专门 化 ， 这 个 新 的 CFG 表示 对 这 个 特定 的 输 
人 句子 有 效 的 文法 G 下 所 有 可 能 的 分 析 树 的 一 个 紧 致 编码 。 例 如 ， 对 于 输入 字符 串 “a 
and b or c”， 这 个 新 的 CFG 文法 Gy 表示 下 面 显 示 的 分 析 树 的 森林 (forest)。 想 象 输入 字 
符 串 被 分 解 为 跨度 : Oaland26b30r4c5, 那么 a 即 是 跨度 0，1， 字 符 串 “bor c” 在 这 
个 字符 串 中 是 跨度 2，5。 在 这 个 森林 文法 GO 中 的 非 终 结 符 包 括 跨 度 信 息 。 应 用 这 个 文 
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法 产生 的 不 同 的 分 析 树 对 于 输入 句子 都 是 有 效 分 析 树 。 


N[0,5] -> N[0,1] N^[1,5] 

N(0,3] -> N[0,1] N^[1,3] 

N^[1,3] -> 'and'[1,2] N[2,3] 

N^[1,5] -> ‘and’ [1,2] N[2,5] 

N[0,5] -> N[0,3] Nv[3,5] 

N(2,5] -> N[2,3] Nv[3,5] 

Nv[3,5] -> ‘or’[3,4] N[4,5] 

NIO,1] => ‘a? [0,1] 

N[2,3] -> ‘b’ [2,3] 

N[4,5] -> ‘c’ [4,5] 

以 这 种 观点 ， 分 析 算 法 可 以 被 定义 为 对 一 个 CFG 和 输入 字符 串 ， 产 生 专 门 对 和 输入 
的 所 有 合理 分 析 紧 致 表示 的 CFG， 如 图 3-6 所 示 。 分 析 器 需要 创建 所 有 有 效 的 专门 规则 集 


或 者 创建 一 条 从 跨 整 个 字符 串 的 开始 符号 到 由 单词 组 成 的 叶子 节点 的 路 径 。 


»t Ne N[0,5] 


N[0,1] N'[1,5] 


yen 
ab NW "t T Up Nv[3,5] 
Mo Eu 


N[0,1] N'[13]  'or[34] N[4,5] 
N[2.3] Nv[3,5] | 
| y N *a'[0,1] 'and[1,2] N[2,3] 'c'[4,5] 
*b'[2,3] ‘or’[3,4] N[4,5] 
*b'[2,3] 
'c'[4,5] 


图 3-6 JH fbESLACETBB. RAEI CFG 的 分 析 树 。 有 相同 标签 的 节点 ， 比 如 NL0，5j、 
N[0, 1]. ‘and’ [1, 2]. N[2, 3] MNvL3, 5], 可 以 合并 形成 一 个 对 输入 进行 的 所 
有 分 析 的 超 图 表示 


让 我 们 检查 一 下 构建 专门 的 CFG 分 析 器 需要 采取 的 步骤 。 首 先 我 们 仅 生 成 词 的 规则 : 


N[0,1] -» 'a'[0,1] 
NI2,9] -> 'b*[2,3) 
N[4,5] -> 'c*[4,5] 


这 些 规则 可 以 简单 地 通过 检查 对 任意 输入 单词 x 的 类 型 N 一 z 规则 的 存在 性 和 创建 对 
单词 z 的 专门 规则 来 构建 。 这 一 步骤 的 伪 代 码 如 下 所 示 : 


for $:z0...m. do 
if 对 任意 工 跨度 i 十 1， 存 在 具有 分 数 5 的 规则 NN — m, then 
增加 具有 分 数 s 的 专门 规则 NT, i + 1] — z[i i+ 1] 
WA: Nii,i+1]): 8 
end if 
end for 


下 一 步 是 基于 对 先前 产生 的 专门 规则 递归 地 产生 新 的 专门 规则 。 如 果 先 前 创建 的 规则 左 
边 存在 Y[i,k] 和 Zk], FFA WR CFG 内 有 规则 X—YZ ,. 则 我 们 可 以 推断 应 该 存在 新 的 
专门 规则 Xii, jJ—>YLi k]ZLk. 7 和。 每 个 非 终 结 符 跨 度 被 赋予 一 个 分 数 *，X[Li ,7 :s。 每 个 
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非 终 纺 符 仅 保 留 最 高 得 分 的 跨度 ， 因 此 XLi j]= max,XLi,j]:s. 


for j —2...n do 
for i=j-1...0 do 
for k—i-Fl...j do 
if Y[ik|:si 和 Zik, j) : so 在 专门 文法 内 then 
if X 5 YZ 分 数 s， 在 原始 文法 中 存在 then 
增加 专门 规则 Xi, 5]  Y( kZ[k. 3], 2339 s +s; + 52 
保留 最 高 得 分 的 规则 : X[i,j] 一 a 
end if 
end if 
end for 
end for 
end for 


PKA CKY 算法 (以 Cocke, Kasami, Younger 命名 ， 他 们 各 自 独 立 发 现 该 算法 ) 。 
该 算法 考虑 每 个 长 度 的 跨度 ， 以 每 种 可 能 的 方式 分 割 跨度 ， 并 检测 跨度 是 否 可 由 CFG 规 
则 推导 出 。 最 终 我 们 要 保证 能 寻找 到 一 条 规则 (如 果 这 条 规则 存在 的 话 ) ， 其 跨度 是 整个 
输入 字符 串 。 检 测算 法 的 循环 结构 表明 ， 对 大 小 为 n 的 输入 ， 该 算法 花费 时 间 为 芭 。 然 
而 ， 从 专门 的 CFG 穷尽 列 出 所 有 的 树 ， 在 最 坏 的 情形 下 ， 花 费 的 时 间 为 指数 寡 〈 基 于 
CFG 最 坏 的 情形 下 可 产生 指数 棵 树 的 同样 的 推理 ) 。 然 而 ， 使 用 有 监督 的 机 器 学 习 挑 选 出 
最 有 可 能 的 树 ， 花 费 的 时 间 不 超过 m. 

注意 对 于 每 个 跨度 i, j 和 非 终结 符 X， 我 们 仅 保 留 到 达 XLi，jj]」 的 最 高 得 分 路 径 。 
因此 ， 可 以 从 跨 整 个 字符 串 的 最 高 得 分 的 开始 符 SLO ][n] 开始 ， 通 过 扩展 S[O][n] MA 
部 分 并 且 递 归 这 一 过 程 直 到 终结 符 ， 对 于 给 定 的 句子 我 们 可 以 创建 一 棵 最 高 分 数 分 析 树 。 

在 概率 框架 下 ， 分 数 锌 视 为 对 数 概率 ， 这 即 是 Viterbi 最 优 分 析 (Viterbi-best 
parse) 。 每 个 单元 包括 由 非 终 结 符 X 经 过 推导 字符 串 wb jj]」 的 对 数 概率 ， 可 以 
BA Pr( X> * wLi，jj」 )。 注 意 在 一 个 特别 的 跨度 i、;7 上 的 非 终 结 符 X 的 作用 依赖 于 
开始 符 S， 可 以 由 外 概率 Pr(S=> * wL0,i 一 1]XwLj 十 1, ND RRR. SHE. TUE 
用 内 、 外 概率 来 计算 以 XLi，7j」 开始 的 每 条 规则 的 作用 。 

有 很 多 方式 可 以 通过 去 除 一 些 不 太 可 能 的 搜索 空间 加 快 分 析 器 。 例 如 ， 我 们 可 以 对 比 
XLi. j] 的 分 数 与 YLi，;」 当 前 的 最 高 分 数 ， 如 果 XLi, j] 与 Y[i, ;7」 比 可 能 性 太 小 ， 
则 舍弃 任何 以 XLi, j] 开始 的 规则 。 这 可 能 导致 搜索 错误 (失去 了 分 数 最 高 的 分 析 树 )， 
但 是 一 般 情 况 下 这 种 情况 不 会 发 生 ， 因 而 我 们 在 更 快 的 分 析 时 间 和 精确 度 间 做 出 权衡 。 这 
FRA Vr RAR BR AEE REL (beam thresholding)。 我 们 可 以 通过 增加 全 局 的 浆 值 限制 来 扩充 
它 。 例 如 ， 如 果 以 XL. ;] 开始 的 规则 如 没有 相 邻 规则 与 之 合并 ， 是 不 行 的 。 BAK 
TAR PK Hy 4 Jey WE (global thresholding)。 如 果 我 们 有 一 个 非常 复杂 的 非 终 结 符 集合 (如 
图 3-7 所 示 ) ， 则 可 以 先 用 稍 粗糙 的 非 终 结 符 代替 更 细 粒 度 的 非 终 结 符 〈 例 如 ， 用 简单 
的 非 终结 符 VP TRIER VPS) 进行 分 析 ， 然 后 使 用 粗糙 的 非 终 结 符 VPLi，7j 的 
分 数 修剪 同一 跨度 上 更 细 粒 度 的 非 终 结 符 。 这 种 方法 称 为 粗 到 细 的 分 析 (coarse to fine 
parsing) ， 这 种 分 析 很 有 用 ， 因 为 除了 内 概率 ， 在 粗 分 析 步 骤 中 的 外 概率 可 以 用 来 做 更 
AMR. HA. Qh A. APIA oT. = PRA Joshua Goodman [21 | 
分 析 PCFG 时 都 被 讨论 过 。 

分 析 器 可 以 进一步 利用 A * 搜索 加 快 ， 而 不 使 用 先前 提 到 的 算法 [22] 穷尽 搜索 整个 
分 析 空 间 。 大 量 启 发 式 的 选择 使 得 A* 搜索 可 以 提供 更 快 的 分 析 速 度 ， 而 在 最 坏 情 形 下 其 
复杂 度 与 CKY 算法 一 样 。 
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TOP TOP 


S TOP 


人 
L 


Tis ks VB NP This is VB'VP 





DTNP VBZ 




















panic buying panic buying 
a) 一 棵 树 库 里 的 树 b) 非 终 结 符 的 父 节点 标注 
TOP TOP 
i: S-is 
ji ps 3n ye Nn 
1^ VBZ- AN DT- in VBZ-is VP-pani 
This is of: J This is VB-panic — NP-buyin 
panic buying panic buying 
c) 自动 分 割 - 合 并 非 终 结 符 成 子 类 d) 词汇 化 的 非 终结 符 


3-7 ”为 去 除 独立 性 假设 (不 利于 分 析 执 行 )， 一 棵 树 库 的 树 被 转换 成 ， a) 原始 树 库 里 
的 树 ， 从 数据 中 很 容易 提取 出 PCFG;，b) 把 父 节 点 标签 转 接 到 每 个 节点 标签 上 ! 
c) 对 每 个 非 终 结 符 使 用 未 监督 学 习 方式 创建 子 类 ; d) 通过 词汇 化 非 终结 符 使 用 
词汇 项 过 滤 整 棵 树 


对 于 投射 性 依存 分 析 ， 同 样 的 算法 可 以 通过 创建 一 个 产生 依存 分 析 的 CFG 使 用 (前 
面 章 节 已 提 到 )。 然 而 ， 对 于 依存 分 析 ， 上 面 的 循环 在 最 坏 的 情形 下 有 n 数量级， 因为 每 
个 Y 和 2Z 都 是 词汇 化 的 ， 在 最 坏 的 情形 下 存在 ”个 不 同 的 非 终结 符 Y 和 个 不 同 的 非 终 
结 符 Z， 这 样 在 CKY 算法 的 内 循环 中 就 有 nm 种 不 同 的 组 合 。 

然而 ， 对 于 依存 分 析 ，Eisner [23] 观察 到 不 使 用 因 单 词 增加 的 非 终结 符 ， 而 对 输入 
字符 串 的 每 个 跨度 的 不 同 依存 树 集合 进行 紧 致 表示 更 有 优势 。 其 思想 就 是 独立 地 收集 中 心 
词 的 左右 依存 词 ， 然 后 在 下 一 步 合 并 它们 。 这 样 带 来 了 分 割 中心 词 Csplitthead) 的 概念 ， 
中 心 词 被 分 割 成 两 部 分 : 一 个 对 左 依存 词 ， 一 个 对 右 依存 词 。 除 了 中 心 词 ， 存 储 跨 度 的 每 
一 项 ， 我 们 都 存储 一 个 标记 指明 中 心 词 是 在 收集 左 依 存 词 还 是 右 依存 词 ， 并 且 该 存储 项 是 
否 完整 (完整 的 项 不 能 被 扩展 为 更 多 的 依存 部 分 )。 这 样 在 最 坏 情 形 下 依存 分 析 算 法 是 
数量 级 .这样 也 减少 了 中 间 状 态 的 数目 ， 不 允许 左 依存 和 右 依存 的 任何 交叉 操作 ， 不 同 于 
用 于 依存 分 析 的 CKY 算法 。 
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下 面 的 伪 代 码 ( 源 自 Ryan McDonald 的 论文 [24 ]) 详细 描述 了 Eisner 算法 。 跨 度 以 
线 图 数据 结构 C 存储 ， 比 如 Chill] KRBE i, j 的 依存 分 析 。 不 完整 的 跨度 记 做 Ci， 
完整 的 跨度 记 做 Ce 。 向 左 增长 的 跨度 ( 仅 增加 左边 依存 ) 记 为 C- ， 向 右 增长 的 跨度 记 为 
Coa MT C-Ll;l FOHA js MT CD] PORN i 


初始 化 : for s —1...n chart C5[sj[s] = 0.0 for de (—,—) and ce {i,c} 
for k1...$ do 
for a= i.n do 
t=s+k 
break if ti ^n 
BH: 创建 不 完整 项 
Ci [s][t] = maxs<r<t Ce [s][r] + C£ [r + 1][t] + s(t, s) 
C*,[s][t] = maxs<r<e CS [s][r] + Ce [r+ 1][t] + s(s, t) 
其 次 ， 创 建 完整 项 | 
C? [s][t] = maxs<r<e Cz. [s][r] + C4 [r] [t] 
C£, [s][t] = maxs<r<e C+ [s][r] + CS [r][t] 
end for 
end for 


我 们 假定 存在 唯一 的 根 节点 为 最 左边 的 词 (如 前 所 述 ) 。 对 于 整个 句子 ， 最 优 树 
的 分 数 为 C".[1][nj]。 运 行 算法 的 复杂 度 为 OC(mw)， 除 此 之 外 ， 该 算法 还 可 以 扩展 为 提供 
k-best 分 析 ， 其 复杂 度 为 Oln? klogk). 


3.4.3 最 小 生成 树 和 依存 分 析 


在 有 向 图 中 寻找 最 优 分 支 与 在 无 同 图 中 寻找 最 小 生成 树 (Minimum Spanning Tree, 
MST) 问题 紧密 相关 。 我 们 对 有 向 图 有 兴趣 ， 因 为 它 与 依存 树 一 致 ， 总 是 有 根 节点 并 且 无 
环 。 前 提 是 单词 之 间 每 个 潜在 的 依存 连接 应 当 有 一 个 权 值 。 在 自然 语言 处 理 中 ， 传 统 方法 
是 借助 于 最 小 生成 树 解决 有 向 图 中 的 最 优 分 支 问题 。 在 依存 树 库 的 分 析 实 例 中 ， 我 们 假定 
有 一 些 模型 可 以 提供 依存 树 中 单词 之 间 依 存 连接 的 可 能 性 估计 的 分 数 。 这 些 分 数 可 以 用 来 
找 出 最 小 生成 树 ， 即 具有 最 高 分 数 的 依存 树 。 因 为 输入 句子 的 单词 线性 顺序 并 没有 考虑 在 
最 小 生成 树 的 框架 内 ， 这 样 交叉 或 非 投 射 依存 就 会 被 这 种 分 析 器 找到 。 这 对 于 英语 这 样 投 
射 性 的 语言 可 能 会 存在 问题 ， 但 是 对 于 像 捷 克 语 这 样 的 语言 却 提供 了 一 种 找 出 交叉 依存 的 
很 自然 的 方式 。 

下 面 并 没有 给 出 最 小 生成 树 算法 的 伪 代 码 (McDonald [24] 有 提供 )， 我 们 只 是 展示 
了 MST 算法 是 如 何 使 用 一 个 依存 分 析 的 例子 工作 的 。 

对 输入 句子 John saw Mary 考虑 下 面 的 全 连接 图 。 每 条 边 都 具有 权重 ， 值 的 计算 基于 
边 上 的 一 些 求 分 函数 〈 计 算 这 些 分 数 源 于 边 上 不 同 的 特征 ， 这 些 特征 下 节 讨 论 )。 
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l 
20 


root John saw 


E 
30 
3 


第 一 步 是 找 出 分 值 最 高 的 人 (incoming) 边 。 如 果 这 一 步 最 终 得 到 是 一 棵 树 ， 和 那么 我 
们 把 这 棵 分 析 树 作为 分 析 结 果 返 回 ， 因 为 这 棵 树 就 是 最 小 生成 树 。 在 本 例 中 ， 经 过 在 图 中 
挑选 最 高 分 值 的 人 边 ， 得 到 一 个 回路 。 


30 


把 回路 收缩 为 单个 节点 ， 并 且 计 算 这 些 边 的 权重 。 当 计算 每 个 节点 到 收缩 节 扣 的 边 权 
SEE. 我们 要 记 住 合并 节操 的 哪个 组 成 部 分 有 最 大 的 权 值 。 比 如 ， 对 于 上 面 的 图 ， HAA 


JI: root >|saw >John]: wt 二 40 与 root >|John >saw|: wt 二 29; THAW: Mary 一 
iu Xd Won MM MERE Sul, vri. 


9 
40 


root (Toh s] 2+ Mary 


31 
我 们 在 这 个 图 中 递归 运行 最 小 生成 树 算法 ， 意 味 着 找 出 图 中 每 个 词 的 最 佳人 边 。 在 这 


个 例子 中 ， 对 比 : root Mary > |John >saw|: wt=—9-+31 5 root > |John >saw| > 
Mary: wt 二 40 十 30， 这 样 形成 了 下 面 的 图 : 
40 


M mae Mary 
展开 递归 步骤 即 得 到 最 高 得 分 的 输入 依存 分 析 的 最 小 生成 树 : 


root 


3.5 分 析 中 的 歧义 消解 模型 

本 节 主 要 集中 讨论 分 析 中 的 建 模 : 如 何 设 计 特 征 并 消解 分 析 中 的 歧义 。 在 3.4 节 讨 论 
分 析 算 法 时 包含 运用 模型 进行 高 效 分 析 的 内 容 。3. 4 节 的 算法 为 本 节 描 述 的 模型 所 用 ， 用 
来 寻找 最 高 分 数 分 析 树 或 依存 分 析 ， 有 时 也 可 用 来 训练 模型 。 
3.5.1 WEX ERXZXXi 

考虑 先前 讨论 过 的 歧义 问题 ， 下 面 我 们 将 会 对 句子 John bought a shirt with pockets 


中 有 歧义 的 分 析 做 出 一 个 选择 。 
(S (NP John) (S (NP John) 
(VP (VP (V bought) (VP (V bought) 
(NP (D a) (NP (NP (D a) 
(N shirt))) (N shirt)) 
(PP (P with) (PP (P with) 


(NP pockets) ))) (NP pockets) )))) 
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我 们 想 提 出 一 个 模型 ， 基 于 如 下 直觉 : 第 二 棵 分 析 树 优 于 第 一 棵 分 析 树 。 这 两 棵 分 析 
树 可 看 作 是 下 述 CFG 歧义 的 (最 左 或 最 右 ) HES: 


S -> NP VP 

NP -> ‘John’ | ‘pockets’ | D N | NP PP 
VP -> V NP | VP PP 

V -> ‘bought’ 

D -> *&* 

N -> ‘shirt’ 

PP -> P NP 

P -> ‘with? 


为 了 对 每 个 推导 提供 分 数 或 者 概率 ， 我 们 可 以 在 这 个 CFG 规则 上 附加 分 数 或 者 概率 。 
推导 的 概率 是 分 数 之 和 或 者 所 有 在 推导 中 使 用 的 CFG 规则 概率 的 乘积 。 因 为 分 数 可 以 简 
单 地 被 视 为 对 数 概率 ， 当 分 数 或 者 概率 被 赋 给 CFG 规则 时 ， 我们 即 是 在 使 用 概率 上 下 文 
无 关 文 法 (Probabilitic Context-Free Grammar, PCFG), 为 保证 由 PCFG 生成 的 树 集 合 
可 以 被 很 好 地 定义 ， 我们 为 CFG 规则 指定 概率 ， 比 如 对 于 规则 N 一 a， 概 率 即 是 P(N—>a 

| N); 那 就 是 说 ， 每 条 规则 概率 以 规则 的 左边 为 条 件 。 这 意味 着 ,在 上 下 文 无 关 的 非 终 
结 符 扩 展 中 ， 概 率 要 分 布 在 该 非 终 结 符 所 有 的 扩展 规则 上 。 换 句 话 说 : 
]— X P(N >a) 


因此 ， 在 我 们 的 例子 中 ， 为 CFG 中 的 规则 指定 一 个 概率 ， 是 为 了 使 得 更 合理 的 分 析 


具有 更 高 的 概率 。 

S -> NP VP (1.0) 

NP -> *John' (0.1) | ‘pockets’ (0.1) | D N (0.3) | NP PP (0.5) 

VP -> V NP (0.9) | VP PP (0.1) 

V -> ‘bought’ (1.0) 

D -» ‘a’ (1.09 

N -> ‘shirt’ (1.0) 

PP -> P NP (1.0) 

P -> ‘with’ (1.0) 

从 上 述 规则 概率 可 以 看 出 ， 决 定 输 入 多 子 “Jopnz bought a shirt with pockets" AATA 
果 的 规则 仅 是 NP->NP PP 和 VP 一 VP PP， 因 为 其 他 规则 在 两 种 分 析 中 都 有 出 现 。 由 于 
NP--NP PP 在 先前 PCFG 中 设置 的 概率 值 较 高 ， 因 此 合理 的 句法 分 析 结果 具有 更 高 的 概率 。 


规则 概率 可 以 从 树 库 中 计算 出 ， 如 下 例 所 示 。 考 虑 具有 三 棵 树 tH t2, ts 的 树 库 : 


TEMP Ps 
ANA agio nie Zale 


假定 树 n 在 树 库 中 出 现 10 K, W tz 在 树 库 中 出 现 20 次 ， 树 ts 在 树 库 中 出 现 50 次 ， 则 该 
树 库 的 PCFG 规则 概率 计算 为 : 


10 p k 
20 0 SAC 


1043-20-50 


90 


iw a Od 
10 dam 

104-20 —0.334 A—aa 
20 int 

102-20 =0. 667 A—>a 
Z9 —0.285 B--aa 


20-1-50 


90 
204-50 


对 于 输入 句子 “a a a a”， 应 用 上 面 的 PCFG 分 析 为 两 棵 分 析 树 : 


m oe 


tp MEAN 


=0. 714 C--aaa 


a in 


其 概率 计算 分 别 为 pi 0.1255 0. 334 0. 285 —0. 01189, po —0.25 X 0. 667 X 0. 714 — 
0.119, BORA p» 即 为 输入 句子 最 可 能 的 分 析 树 。 最 可 能 的 分 析 树 在 树 库 中 甚至 是 
不 存在 的 ! 这 也 是 PCFG 上 下 文 无 关 的 一 个 重要 性 质 ， 即 被 非 终 结 符 可 被 左 部 使 用 的 任何 
其 他 规则 扩展 。 为 了 采取 更 合适 的 独立 性 假设 ， 统 计 分 析 器 采取 的 一 般 方法 是 扩展 节点 标 
签 以 避免 糟糕 的 独立 性 假设 。 

宾 州 树 库 包含 的 树 如 图 3-7a 所 示 。 第 一 种 方法 是 通过 标记 非 终 结 符 的 父 节点 移 除 一 
些 独立 性 假设 L25]j。 第 二 种 方法 是 通过 使 用 未 监督 的 学 习 算 法 自动 地 学 习 这 些 非 终 结 符 
的 分 割 [26] ( 树 中 的 分 割 - 合 并 使 用 期 望 最 大 化 (Expectation Maximization, EM) 算 
法 )。 第 三 种 方法 [27] 是 词汇 化 非 终 结 符 ， 这 样 可 以 创建 更 好 的 模型 ， 因 为 在 考虑 连接 
附属 节点 时 把 具体 的 单词 也 考虑 在 内 。 

当 每 个 非 终结 符 词汇 化 之 后 ， 标 准 的 分 析 算 法 要 做 出 适当 的 调整 以 处 理 众 多 的 词汇 化 
规则 。 因 为 稀 琉 问题 ， 在 模型 中 具体 使 用 词汇 化 的 非 终结 符 时 也 要 特别 谨慎 。 经 过 非 终结 
符 词 汇 化 之 后 的 PCFG， 非 终结 符 的 展开 从 中 心 词 开始 : 先 预测 中 心 词 产生 左 子 树 ， 然 
后 产生 右 子 树 。 

对 于 给 定 的 输入 找 出 最 可 能 的 分 析 树 的 另 一 种 方式 是 找 出 最 可 能 的 组 成 成 分 集合 。 基 
本 思想 是 找 出 一 棵 有 最 多 正确 组 成 成 分 的 树 ， 而 不 是 得 分 最 高 的 树 。Goodman [28] 提 到 
CKY (我 们 在 3. 4. 2 节 中 给 出 了 定义 ) 算法 可 用 内 、 外 概率 的 乘积 而 不 仅 内 概率 取代 对 每 
个 XX[i，j] 的 评分 函数 ， 最 终 找 出 具有 最 多 正确 组 成 成 分 集合 的 分 析 树 。 这 种 技术 经 第 锌 
称 为 最 大 规则 分 析 (max-rule parsing)， 并 且 可 以 生成 PCFG 无 法 生成 的 分 析 树 ， 与 我 们 
之 前 讨论 的 例子 相似 。 最 大 规则 分 析 明 确 地 在 每 个 成 分 级 别 上 最 大 化 召回 率 ， 因 此 在 分 析 
器 评估 中 经 常 给 出 较 高 的 召回 率 。 


3.5.2 句法 分 析 的 生成 模型 


为 了 找 出 最 合理 的 分 析 树 ， 分 析 器 要 从 可 以 表示 为 决策 序列 的 可 能 推导 中 做 出 选择 。 
假设 用 以 构建 分 析 树 的 决策 序列 ， 即 推导 为 卫 =d ，…，d。 对 输入 句子 z， 和 输出 分 析 树 
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y HI ESA RAPE. RIS ARTES HS 
Pis e Pe a = PLP Cai dab vr n) 
i=] 


概率 P(d; | di, s+, di-1) 中 的 条 件 部 分 称 为 历史 (history)， 相 当 于 一 棵 部 分 建成 
的 分 析 树 (由 推导 序列 定义 )。 我 们 做 一 个 简单 的 假设 ,用 函数 更 把 历史 分 组 为 等 价 类 ， 
使 条 件 部 分 成 为 一 个 有 限 集合 。 


Pidi syda) = [| Pid: | Ph 2 


上 一] 
对 所 有 的 工 、 y 应 用 函数 o, 将 每 个 历史 Hua d d;—i WRAY BI) pki A di CHi) ses 
pe CH). 特征 函数 的 一 些 固定 的 有 限 集 合 。 由 这 有 个 特征 函数 : 


PCa) ,***.d,) — IT Pc; | da GER v 444 CHIOO 
i 一 1 
然而 ，PCFG 的 定义 意味 着 各 种 规则 概率 应 当 调整 以 获得 正确 的 分 析 分 数 。 并 且 ， 
PCFG 的 独立 性 假设 受制 于 内 含 的 CFG， 经 常 导 致 不 好 的 模型 ， 这 种 模型 不 能 使 用 有 效 信 
上 县 对 规则 分 数 进 行 选择 ， 因 此 得 不 到 高 分 数 的 合理 分 析 。 我 们 希望 可 以 使 用 分 析 树 的 任意 


特征 对 这 些 歧义 建 模 。 判 别 模型 为 我 们 提供 了 这 样 的 一 类 模型 。 


3.5.3 句法 分 析 的 判别 模型 


Collins[ 29] 拓展 了 Freund 和 Schapire[ 30」 的 思想 ， 创 建 了 一 种 简单 的 记号 和 框架 ， 
可 描述 不 同 的 判别 方法 以 学 习 分 析 (分 块 或 标注 )。 这 种 框架 称 为 全 局 线性 模型 (global 
linear model) [29]. (Rit x 为 输入 集合 ，y 为 可 能 的 输出 集合 ， 可 以 是 词性 序列 、 分 析 树 
或 依存 分 析 树 。 
。 每 一 个 TEx，yEy 映射 到 一 个 4d 维 的 特征 向 量 B(x，y)， 其 中 的 每 一 维 都 是 实 
数 ， 概 括 了 包含 在 (x，y) 内 的 部 分 信息 ; 
。 表示 特征 重要 性 的 权重 参数 向 量 w€ R^ 对 应 于 B(x,y) ENRERE., Olr, y) X 
w 的 值 表示 Cr. y) 的 分 数 ， 分 数 越 高 y 作为 z 的 输出 结果 的 可 能 性 越 大 ; 
。 函数 GENCz) 表示 输入 并 对 应 的 所 有 输出 y 的 集合 。 
有 了 (rz，y)、w 以 及 GEN (xz) 的 详细 说 明 ， 我 们 可 以 选择 属于 集合 GEN(z) FA 
分 数 最 高 的 y* 作为 最 合理 的 输出 结果 ， 即 


F(z) = argmax p(y | z,w) 
y€ GEN (x) 


Hep, F(x) 返回 属于 集合 GENC) 的 分 数 最 高 的 y* 。 条 件 随机 场 (Conditional Ran- 
dom Field, CRF) [31] 把 条 件 概 率 定 义 为 每 个 候选 y 和 全 局 归 一 化 项 的 线性 分 数 : 


log p(y | zw) = (x. + w— log e exp(@®(z,y ) + w) 


y EGEN (2) 
忽略 归 一 化 项 的 一 个 简单 的 全 局 线性 模型 为 : 


F(x) = argmax O(r,y)*w 
y€ GEN (x) 


很 多 分 析 的 实验 结果 表明 ， 全 局 线性 模型 忽略 归 一 化 项 之 后 可 以 更 快 地 训练 模型 ， 在 精确 
度 上 与 更 高 代价 的 归 一 化 模型 的 训练 结果 一 样 。 

感知 机 (perceptron) [32] 最 初 是 作为 单 层 的 神经 网 络 被 引 和 的。 运用 在 线 学 习 的 训 
练 方式 〈 即 一 次 处 理 一 个 实例 )， 调 整 权 重 参 数 向 量 ， 该 向 量 以 后 可 用 于 对 输入 数据 进行 
分 析 以 产生 相应 的 输出 结果 。 权 重 调整 过 程 中 ， 对 出 现在 事实 中 的 特征 进行 奖励 ， BRA 
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出 现 则 进行 相应 的 惩罚 。 经 过 更 新 之 后 ， 感 知 机 模型 能 确保 当前 的 权重 参数 向 量 可 以 正确 
识别 当前 的 训练 实例 。 
假定 训练 集 上 有 m 个 实例 。 原 始 的 感知 机 学 习 算法 [32] 如 算法 3-1 所 示 : 


算法 3-1 原始 感知 机 学 习 算 法 


WA: 训练 数据 ， ((z1,91). £i. $ (Em, Ym)); ARAT 
2 设置 w= 二 0 


i: Or t= L.. d de 
2: Lee. m do 
3: ir yi, iby! = arene P(r, y) w 


4 if y, # y; then 

5: W = w -- (zi yi) 一 更 (zs 人 
6 end if 

7: end for 

8. end for 


输出 : 更 新 的 权重 参数 向 量 w 


权重 参数 向 量 w 初始 设置 为 0。 然 后 通过 这 m 个 训练 实例 算法 进行 迭代 。 对 每 个 实例 
XxX， 产生 候选 集合 GEN(zx)， 根 据 当 前 的 权重 参数 向 量 w 选 出 具有 最 高 分 数 的 最 合理 候选 。 
之 后 ， 算 法 把 选择 的 候选 与 事实 比较 ， 如 果 不 相 同 则 更 新 权重 w: 特征 出 现在 事实 中 则 权 
重 值 相应 增加 ; 若 特 征 出 现在 这 个 最 高 的 候选 内 则 减少 权重 值 。 如 果 训 练 数 据 是 线性 可 分 
离 的 ， 那 么 这 意味 着 训练 数据 可 以 利用 一 个 特征 的 线性 组 合 函 数 进行 区 分 ， 学 习 过 程 可 证 
明 在 有 限 次 数 的 迭代 后 收敛 [30]. 

原始 感知 机 学 习 算 法 易于 理解 和 分 析 。 然 而 ， 增 量 式 权 重 更 新 具有 过 拟 合 的 问题 ， 从 
而 导致 可 以 很 好 地 分 类 训练 数据 但 是 以 不 可 见 数 据 的 结果 更 差 为 代价 。 并 且 ， 感 知 机 算法 
不 能 处 理 线 性 不 可 分 离 的 训练 数据 。 

Freund 和 Schapire [30] 提出 了 一 种 变型 的 感知 机 学 习 方 法 ， 即 投票 的 感知 机 算法 
(voted perceptron algorithm) 。 算 法 的 学 习 过 程 并 没有 用 单个 权重 参数 向 量 存 储 和 更 新 人 参 
数值 ， 而 是 跟踪 所 有 的 中 间 权 重 向 量 ， 这 些 中 间 权 重 向 量 在 分 类 阶段 用 来 对 答案 投票 。 算 
法 的 初衷 是 较 好 地 预测 向 量 有 较 长 的 生存 周期 ， 因 此 在 投票 时 有 较 高 的 权重 。 算 法 3-2 UR 
E Freund 和 Schapire (有 微小 的 改动 )， 展 示 了 投票 感知 机 训练 和 预测 阶段 。 

算法 3-2 投票 感知 机 算法 
训练 阶段 : 
输入 : 训练 数据 《((Z1; 级 ),… ,(Zm,ym))， 迭代 次 数 T 
初始 化 :大 = 0, wo =0,c,; = 0 
算法 : 
for t =y Edo 


for i—1,...,7 do 
Wu HHP yi = bp o(zi, y) ` Wk 


输出 : 权重 向 量 列表 ((w1, 1), . .. (wk, cx)) 


85 
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预测 阶段 : 


一 一 -一 一 一 一 一 一 一 


输入 : KEHEE (wici). (wk 0x))s Ex 
计算 : 


k 
y' — argmax LES 


输出 : 投票 最 高 的 候选 y* 


投票 感知 机 中 参数 c; 用 以 记录 特定 的 权重 参数 向 量 (wi. c) 在 训练 过 程 中 的 生存 次 
数 。 对 于 一 个 训练 实例 ， 如 果 其 选择 的 最 高 候选 词 与 事实 不 同 ， 则 新 的 记录 次 数 变 量 ci 
被 赋值 为 1， 然 后 更 新 权重 问 量 (wit1，ci+l1)， 同时 将 原 有 的 c; 和 权重 向 量 (wi, ci) 存 
储 起 来 。 

与 原始 感知 机 比 ， 由 于 为 投票 而 维持 中 间 权 重 向 量 的 列表 ， 投 票 感知 机 更 为 稳定 。 然 


而， 存储 这 些 中 间 权 重 回 量 是 低 效 率 的 。 并 且 ， 在 预测 阶段 使 用 所 有 的 中 间 权 重 向 量 进 行 


权重 计算 ， 也 是 耗 时 的 。 
平均 感知 机 算法 [30] Caveraged perceptron algorithm) 是 投票 感知 机 的 一 种 近似 ， 
换 名 话说， 维持 了 投票 感知 机 算法 算法 的 稳定 性 ， 但 有 效 地 减少 了 空间 和 时 间 复 杂 度 。 在 
平均 感知 机 算法 中 ， 没 有 用 权重 参数 w， 而 是 使 用 m 个 训练 实例 的 平均 权重 参数 向 量 y 对 
未 知 数据 进行 预测 : 
1 


— wire 
mT i= leem, t=] T 


为 了 计算 y. 维护 一 个 累积 参数 向 量 。， 并 且 用 每 个 训练 实例 的 w 更 新 。 在 最 后 一 次 
迭代 后 ，o/ (mT) 产生 出 最 终 的 参数 向量 Y。 算 法 3-3 展示 了 整个 算法 。 


算法 3-3 平均 感知 机 学 习 算 法 


输入 : 训练 数据 ((z1,31);- tt ns thah 迭代 次 数 T 
初始 化 : 设置 w =0,7=0,0=0 
算法 : " 
fort 21... a6 
fori = 1,...,7 do 


Wy HP y; = argmax (Ti, y) -w 
yE GEN(z) 


if Vi Æ y; then 
Ww —w- (Ti, yi) NT $(zi, Yi) 
end if 


输出 : 平均 权重 参数 向 量 7 = o/(mT) 


当 特 征 数量 很 多 时 ， 计算 每 个 训练 实例 的 参数 o 的 代价 很 高 。 为 了 进一步 减少 时 
间 复 杂 度 ，Collins [33] 提出 了 一 种 懒惰 更 新 程序 ， 避 免 了 在 每 次 和 迭代 过 程 中 更 新 整 
个 权重 向 量 。 处 理 每 个 训练 句子 后 ， 并 不 是 c 所 有 的 维 都 被 更 新 。 相 反 ， 更 新 问 量 r 
被 用 来 存储 准确 位 置 Cp. D. ， 即 平均 参数 向 量 的 每 一 维 最 后 被 更 新 的 位 置 ， 当 然 只 
有 出 现在 当前 句子 中 的 特征 相应 的 维 才 会 被 更 新 。 这 里 p 代表 最 后 被 更 新 的 特征 的 训 
练 实例 索引 ，t 表 示 其 相应 的 迭代 次 数 。 在 最 后 一 个 实例 的 最 后 一 次 迭代 中 ,无 论 其 
候选 输出 结果 正确 与 否 ， rt 的 每 一 维 都 得 到 更 新 。 算 法 3-4 展示 了 基于 懒惰 更 新 程序 
的 平均 感知 机 算法 。 
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算法 3-4 SET ABE GERE BOE 1S EAD LE 21 ETE 


输入 : 训练 数据 LETE OT » (m: Yom); ARAA T 
初始 化 : 设置 w = 0, y=0,0=0,r=0 
算法 : 
for t=... T dö 
fork = 1... onda 


计算 ws Hip yi = argmax (zi, y) -w 
yE€GEN(z) 


if t Æ Tori #m then 
if y, Æ y; then 
// 更 新 当前 句子 的 活跃 特征 
for (®$ (zi,yi) — (za y,)) 每 一 维 s do 
if Æ HE TU€E then 
// 包 括 自从 上 次 更 新 以 来 本 特征 一 直 不 活跃 的 时 段 的 所 有 权重 
Os — 0,4 3 U, (t-m+i-t,,-m—i,,) 
end if 
// AE y; 5 yit op AC € 
Us = Ws + S (zi, yi) T P(T, y;) 
Os 三 Og + (zi, Yi) en $ (zi, y;) 
// 记录 维度 s 更 新 的 位 置 
1; x (4,0) 
end for 
end if 
else 
H 在 最 后 一 次 循环 中 处 理 最 后 一 个 句子 
or 
// 包括 自 从 上 次 更 新 以 来 7 的 每 个 特征 一 直 不 活跃 的 时 段 的 所 有 权重 
Os = 05+ ,°(T-m+m-—t,, -m—i,,) 
end for 
// 更 新 在 这 个 最 后 句子 出 现 的 特征 的 权重 
if y; X y; then 
w = w t (zi, yi) — (zi, y;) 
o — 20 + (zi, yi) — (zi y) 
end if 
end if 
end for 
end for 


输出 : 平均 权重 参数 向 量 7 = o/(mT) 


3.6 多 语言 问题 : 什么 是 词 元 ” 
3.6.1 词 元 切 分 、 实 例 和 编码 


到 目前 为 止 ， 我 们 假定 在 一 个 文法 体系 中 或 者 在 一 个 树 库 中 ， 词 的 概念 ， 或 者 更 详细 地 
说 一 个 单词 词 元 的 概念 ， 是 良 定 义 的 。 然 而 ， 这 种 定义 一 般 是 在 给 定 的 树 库 或 分 析 器 中 是 良 
定义 的 ， 但 是 对 于 不 同 的 树 库 或 分 析 器 就 会 有 很 多 变化 。 例 如 ， 英 语 中 的 所 有 格 和 系 动 词 s 
(be 的 一 个 变 体 ) 。 在 英语 中 ， 词 元 之 间 一 般 由 空格 隔 开 。 然 而 ， 在 英语 的 分 析 器 或 树 库 中 ， 
诸如 today’s 或 There's 被 视 为 两 个 独立 的 词 元 ， 即 today 和 或 There 和 。 正 如 在 宾 州 树 
库 的 标记 集 标 准 中 指出 的 ， 所 有 格 可 以 适用 于 一 些 前 面 的 组 成 成 分 而 不 仅 是 前 面 的 词 元 : 


(NP (NP (NP First) 
(PP of 
(NP America)) 
!s) 
operating results) 


O ”本 节 讨 论 与 句法 分 析 相 关 的 形态 和 分 词 问 题 。 对 形态 处 理 的 深入 论述 参见 第 1 章 ， 
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类 似 地 ， 对 于 系 动 词 's: 


(S (NP-SBJ (EX There)) 
(VP (VBZ 's) 
(NP-PRD (NP (NN nothing)) 
(ADJP (RB very) 
(JJ hot)))))) 


在 一 些 语言 中 也 会 有 大 写 和 小 写 的 问题 。 把 整个 树 库 的 数据 变 为 小 写 ， 并 对 分 析 器 仅 
输入 小 写 文 本 ， 这 确实 是 吸引 人 的 。 然 而 ， 大 小 写 (case) 可 以 携带 有 用 的 信息 。 如 果 词 
Boeing 在 树 库 中 未 出 现 过 ， 那 么 训练 数据 看 起 来 像 是 个 进行 时 动词 如 singing; 但 是 初始 
的 大 写字 母 使 其 更 像 一 个 合适 的 名 词 。 然 而 ， 依 赖 于 类 型 和 可 见 的 训练 数据 ， 一 些 大 小 写 
变换 ， 比 如 选择 性 地 把 句子 的 第 一 个 词 变 为 小 写 ， 需 要 进行 以 便 从 树 库 中 得 到 合理 的 估 
计 。 低 频 词 元 可 以 被 保留 大 小 写 信息 的 模式 取代 ， 比 如 单词 Patagonia 在 树 库 中 出 现 了 两 
次 ， 那 么 它 可 以 被 Xzz 替代 以 表示 匹配 同样 模式 的 、 新 的 未 登录 词 可 以 被 当 作 这 种 模式 
下 的 已 知 词 。 这 种 技巧 同样 适用 于 日 期 、 时 间 、IP 地 址 、URL 等 。 

有 些 语言 文本 并 没有 用 ASCII 编码 ， 因 此 不 同 的 编码 也 要 考虑 。 特 别 地 ， 分 析 器 使 用 
的 数据 要 被 编码 为 与 树 库 一 致 的 编码 格式 ， 反 之 亦 然 。 对 于 句子 标点 如 (. 。)， 在 有 些 语 
言 中 编码 为 ASCII， 而 在 某 些 语言 中 编码 为 UTF-8 格式 。 有 些 语 言 ， 比 如 汉语 ， 在 不 同 的 
地 区 可 能 会 有 不 同 的 编码 格式 ， 如 GB、BIG5 和 UTF-8 格式 等 都 可 以 在 中 文 文本 中 见 到 。 

从 算法 角度 讲 ， 与 编写 分 析 器 相 比 ， 这 些 是 琐碎 的 问题 ， 但 是 实际 上 这 些 问题 是 具有 
挑战 性 和 耗 时 费力 的 。 虽 然 更 具体 地 讨论 这 些 问题 不 在 本 章 的 范围 之 内 ， 然 而 应 该 指出 ， 
在 具体 编写 一 门 新 语言 的 句法 分 析 器 或 考虑 编写 句法 分 析 器 时 诸如 分 词 、 大 小 写 、 编 码 等 
问题 都 需要 考虑 。 


3.02 € 


在 很 多 语言 的 书写 格式 中 ， 包 括 中 文 ， 缺 少 识别 词 的 标记 。 给 定 中 文 文 本 : 北京 大 学 生 
比赛 ， 一 个 合理 的 分 词 应 当 是 “北京 (Beijing) /大 学 生 (university students) /比赛 (com- 
petition) ‘competition among university students in Beijing”。 然 而 ， 如 果 把 北京 大 学 (Beijing 
University) 看 成 一 个 词 ， 分 成 “北京 大 学 (Beijing University) / 生 (give birth to) /比赛 
(competition), ‘Bejing University give birth to competition””， 这 种 分 词 是 不 合理 的 。 

分 词 是 对 字符 序列 进行 分 块 处 理 的 过 程 ， 其 输出 结果 由 分 开 的 有 意义 的 词 元 组 成 。 仅 
当 我 们 识别 并 赋予 句子 中 每 个 单词 的 词性 (例如 ，NNP 或 者 DT) 时 ， 整 个 句子 的 句法 树 
才 可 以 构建 。 在 处 理 英语 或 法 语 的 系统 中 ， 词 元 是 可 以 直接 利用 的 ， 因 为 在 这 些 语言 中 单 
词 之 间 有 空格 隔 开 ， 而 对 于 中 文 ， 字 符 紧 挨 着 书写 ， 对 于 词 的 识别 没有 标记 。 

对 于 中 文 的 分 词 已 有 众多 的 研究 者 并 组 成 了 一 个 大 的 社区 ， 而 且 举 办 了 三 次 SIGHAN 
评测 [34，35，36]。 本 书 第 1 章 讨论 了 这 些 问题 ， 本 节 仅 关注 对 于 句法 分 析 的 影响 ，。 

对 于 中 文 分 析 L37] 一 个 有 意思 的 方法 就 是 直接 分 析 汉 字 序 列 本 身 。 分 析 需 指定 词 边 
界 (作为 分 析 过 程 的 一 部 分 )， 树 中 包含 一 组 汉字 跨度 的 非 终 结 符 也 可 以 认为 是 明确 了 词 
边界 。 然 而 ， 研 究 发 现 ， 最 近 的 上 下 文 在 预测 词 边界 上 非常 有 用 。 全 局 句子 上 下 文 在 词 边 
界 的 发 现 问题 上 的 作用 不 大 ， 尽 管 在 某 些 情形 下 分 词 的 歧义 消解 过 程 需 要 获得 分 析 树 的 长 
距离 依赖 关系 。 

分 词 模 型 如 只 输出 一 个 最 优 分 词 结果 ， 则 句法 分 析 器 不 能 对 多 种 合理 的 分 词 结果 进行 
选择 。 应 用 Bar-Hillel, Perles 和 Shamir [38] 的 结果 ， 我 们 知道 基于 CFG HAH AW 
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分 析 输 入 词 格 〈 表 示 为 有 限 目 动机 的 有 限 语言 )。 分 析 器 把 自动 机 的 状态 作为 索引 ， 可 看 
作 是 输入 字符 串 索 引 的 一 种 泛 化 。 输 入 的 词 格 可 以 用 来 表示 中 文 输入 分 词 的 多 个 结果 ， 然 
后 分 析 融 选择 其 中 哪 一 种 结果 可 导致 最 准确 的 分 析 树 。 


3.6.3 形态 学 


在 很 多 语言 中 ， 用 空格 分 割 词 元 是 有 问题 的 ， 因 为 每 个 单词 包含 一 些 称 为 词素 的 成 分 ， 
以 至 于 单词 的 意思 可 以 看 做 是 词素 意思 的 组 合 。 此 时 ， 单 词 被 分 解 成 一 个 词 干 和 若干 词素 。 
例如 ， 下 面 土耳其 树 库 中 的 一 个 依存 分 析 例 子 显示 出 句法 依存 应 该 了 解 单词 内 的 词 
素 。 在 本 例 中 ,单词 内 的 词素 边界 用 “十 ”号 表示 。 词 素 ， 不 是 单词 ， 被 用 作为 中 心 部 分 
以 及 依存 部 分 。 | 


Det Subj Subj 





D; ADK.) TN Dc Ne he AORN UC oy N PN — ADV V 
土耳其 语 、 分 兰 语 以 及 其 他 的 一 些 黏着 语 都 有 这 样 共 同 的 性 质 : 整个 子 句 和 词素 结合 
形成 非常 复杂 的 单词 。 


诸如 捷克 语 、 俄 语 等 届 折 语言 虽然 没有 那么 极端 ， 但 是 很 多 不 同 的 词素 也 被 用 来 标记 
文法 格 、 性 等 ， 并 且 每 一 种 词素 都 和 其 他 词素 是 正 交 的 《因此 它们 可 独立 地 同 现 )。 例 如 ， 
Hajic 和 Hladka [39] 提 到 捷克 语 的 大 多 数 形容 词 可 以 潜在 地 形成 共 4 种 性 、 共 7 种 格 、 
Jt 3 种 比较 程度 ， 以 及 阴阳 两 种 极 性 。 仅 对 于 形容 词 ， 这 样 就 导致 了 1689 种 不 同 的 届 折 
语词 。 除 了 具有 大 量 的 词 形 ， 对 每 个 屈折 变化 的 单词 的 词素 切 分 也 有 歧义 。 除 了 句法 歧义 
外 ， 分 析 融 还 要 处 理 形 态 此 义 问 题 。 

为 了 处 理 形态 歧义 问题 ， 把 单词 切 分 成 最 可 能 的 词素 序列 可 被 简化 成 词性 标注 任务 
(非常 复杂 )。 每 个 单词 都 被 标注 一 个 编码 了 不 同 词素 的 复杂 标签 。 例 如 ， 词 性 标签 
V--M-3--- 表 示 每 个 单词 都 由 可 以 在 10 个 不 同 维度 进行 屈折 变化 的 词素 组 成 ， 其 中 词 干 是 
V (动词 ) M 表示 阳性 ，3 表示 第 三 人 称 ， 其 他 类 型 的 词素 需要 赋值 ， 本 例 表 明 它 们 没有 
在 这 个 分 析 中 出 现 。 词 性 标注 器 需要 产生 这 个 复杂 的 标签 ， 典 型 做 法 是 对 词性 的 每 个 部 分 
训练 不 同 的 子 分 类 器 ， 然 后 合并 各 子 分 类 器 的 输出 而 得 到 整体 的 词性 标签 [39], 单词 本 
身 并 没有 被 切 分 成 词素 ， 但 是 每 个 词 用 一 个 编码 了 很 多 关于 词素 的 信息 的 标签 标注 。 这 种 
增强 的 词性 标签 集合 可 以 作为 统计 分 析 器 丰富 的 特征 来 源 用 于 届 折 语 。 

在 统计 分 析 器 里 面 增加 词素 建 模 ， 可 以 提高 分 析 精 度 。 例 如 ， 在 西班牙 语 [40] 中， 如 
果 我 们 想 创建 下 面 的 分 析 树 片段 ， 分 析 器 具有 词素 分 析 的 能 力 ， 那 么 复数 名 词 gatosCcats) 
就 不 可 能 修饰 单数 动词 corrio (ran)， 即 使 在 训练 数据 中 没有 这 个 特别 的 双 词 依存 关系 。 


S(corrió,v) 


hs 


NP(gatos,n) VP(corrió,v) 
在 统计 分 析 器 〈 特 别 是 依存 分 析 ) 的 判别 模型 中 ， 加 入 词素 分 析 信 息 是 非常 直接 的 。 
因为 判别 模型 允许 加 入 大 量 的 重 琶 特征 ， 单 词 的 词素 信息 可 以 融和 人 进 这 些 混 合 特征 以 构建 
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更 好 的 句法 分 析 器 。 正 如 CoNLL2007 共享 任务 [13] 以 及 有 些 详细 描述 了 判别 式 依 存 分 
pr (例如 [41. 42D 中 每 种 语言 有 用 的 特征 的 论文 所 表明 的 ， 词 素 信息 可 以 帮助 统计 名 
法 分 析 器 提高 精度 ， 尤 其 是 对 于 形态 复杂 的 语言 。 

在 短语 结构 分 析 中 ，Cowan 和 Collins [40] 提出 了 一 种 判别 式 模 型 用 以 分 析 西 班 牙 
语 ， 采 用 生成 式 模型 的 k-best 输出 结果 ， 并 且 采 用 形态 特征 对 输出 结果 进行 重 排序 。 不 同 
的 形态 信息 被 用 在 词性 标注 和 重 排序 模型 中 ， 并 且 已 证 明 只 要 标签 集合 不 是 过 于 庞大 ， 形 
态 信息 的 增加 就 可 以 提高 句法 分 析 的 精度 。Sarkar 和 Han [43] 在 分 析 朝 鲜 语 的 生成 模型 
中 加 入 了 词素 信息 。 依 存 概 率 由 完整 词 形 和 词 的 各 种 形态 分 解 形式 插值 而 得 。 研 究 表 明 ， 
在 这 个 特别 的 模型 中 ， 使 用 词 干 信息 而 不 是 后 缀 可 以 帮助 分 析 器 泛 化 形态 复杂 的 词 形 ， 并 
帮助 提高 句法 分 析 的 精度 。 


3.7 Be 


本 章 讨论 了 自然 语言 的 句法 分 析 以 及 如 何 构 建 分 析 右 ， 使 其 可 以 有 效 地 、 精 确 地 分 析 
自然 语言 、 生 成 名 法 树 。 我 们 论述 了 使 用 数据 驱动 方法 分 析 目 然 语 言 的 必要 性 ， 介 绍 了 为 
分 析 语 言 提供 训练 数据 的 树 库 的 概念 。 以 机 器 学 习 的 观点 看 ， 分 析 也 是 有 趣 的 ， 因 为 它 是 
复杂 的 、 结 构 化 预测 的 任务 ， 分 析 的 输出 标签 不 是 简单 的 分 类 标签 而 可 分 解 为 更 小 的 单 
元 ， 结 构 化 输出 标签 的 数目 随 着 输入 的 大 小 呈 指 数 寡 增 长 。 我 们 讨论 了 短语 结构 分 析 和 依 
存 分 析 的 使 用 ， 这 是 两 种 以 不 同 的 方式 表示 自然 语言 的 句法 分 析 的 方法 。 本 草包 括 可 以 有 
效 分 析 输 入 句子 的 分 析 算 法 ， 以 及 在 分 析 方 面 进行 上 玻 义 消解 的 机 器 学 习 模 型 。 针 对 不 同 语 
言 编写 分 析 器 存在 很 多 问题 。 我 们 讨论 了 一 些 在 分 析 与 英语 有 很 大 不 同 的 语言 时 出 现 的 问 
Bi. 比如 词 元 切 分 、 大 小 写 、 编 码 问题 、 分 词 以 及 形态 学 。 对 于 每 种 情况 ， 我 们 探讨 了 这 
些 问 题 的 解决 方案 如 何 融 入 这 些 语言 的 统计 分 析 带 。 
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语义 分 析 








Sameer Pradhan 


按 字典 定义 ,语义 学 (semantics) 指 关 于 意义 的 研究 ， 而 分 析 则 指 对 某 事物 的 细致 检 
查 ， 即 识别 出 竺 分 析 的 信息 片断 并 将 它们 联系 起 来 。 将 这 两 个 概念 放 在 一 起 ， 就 是 语义 分 
析 (semantic parsing) 。 按 最 宽泛 的 方式 来 解释 ， 所 谓语 义 分 析 就 是 指 在 信息 信号 中 识别 出 意 
MR (meaning chunk) 并 尝试 将 其 转换 为 某 种 数据 结构 的 过 程 。 利 用 该 数据 结构 ， 计 算 机 将 
可 以 执行 更 高 层 的 任务 。 本 书 所 考虑 的 信息 信号 是 人 类 语言 文本 。 不 幸 的 是 ， 在 自然 语言 处 
理学 界 ， 语义 分 析 这 一 术语 有 时 是 有 歧义 的 。 多 年 来 ， 研 究 者 们 曾 将 此 术语 用 于 表示 各 种 不 
同 层 次 和 粒度 的 意义 表达 方式 。 由 于 语义 学 是 这 样 一 个 模糊 的 术语 ， 它 曾 被 用 于 代表 各 种 不 
同 深 度 的 意义 表示 ， 从 实体 间 的 领域 相关 关系 识别 这 种 基础 问题 到 事件 中 各 实体 、 和 角色 识别 
这 种 中 层 任 务 ， 甚 至 到 将 文本 转换 为 一 系列 特殊 的 逻辑 表达 式 等 。 本 章 我们 将 该 术语 的 意思 
限定 为 研究 如 何 把 自然 文本 映射 成 某 种 计算 机 可 处 理 的 意义 表示 。 利 用 这 些 表 示 ， 计 算 机 将 
可 进一步 达成 某 些 目标 ， 人 例如， 信息 检索 、 回 答 问题 、 填 充 数据 库 或 执行 操作 等 。 


4.1 概述 


语言 理解 研究 的 最 高 境界 是 尽 可 能 详细 地 识别 出 意义 的 表示 ， 以 便 使 推理 系统 据 此 
能 完成 推演 ; 同时 该 表示 又 要 足够 通用 以 便 能 在 无 须 (或 仅 用 少量 ) 目 适 应 的 情况 下 用 
于 跨 多 领域 的 应 用 。 是 否 能 为 各 种 以 某 种 方法 使 用 语言 接口 的 应 用 建立 一 种 最 终 的 、 低 
层 的 、 细 致 的 语义 表示 现在 尚 不 明了 。 或 者 说 ， 目 前 还 不 清楚 是 否 能 创建 出 一 种 能 包含 
上 述 应 用 所 使 用 的 意义 的 各 种 粒度 与 侧面 的 本 体 (ontology) 一 一 迄今 一 个 也 没有 被 创 
建 出 来 。 因 此 ， 在 自然 语言 处 理学 界 的 语言 理解 社区 中 就 出 现 了 两 条 折衷 的 途径 。 

第 一 条 途径 是 ， 针 对 诸如 航空 订 票 、 足 球 游戏 仿真 、 地 理 数 据 库 查询 等 的 受 限 领域 应 
用 创建 专门 但 丰富 的 语义 表达 。 然 后 构造 系统 以 使 其 将 文本 转换 为 这 种 丰富 但 受 限 领域 的 
意义 表达 。 第 二 条 途径 是 ， 建 立 一 套 中 间 意 义 表达 方式 〈 从 低层 到 中 层 分析 ) ， 然 后 把 理 
解 任 务 分解 成 多 个 小 的 、 更 可 控 的 子 任务 ， 比 如 ， 先 做 词义 消 歧 ， 再 做 谓词 - 论 元 结构 识 
别 等 。 一 旦 将 问题 按 这 种 方式 分 解 ， 每 个 中 间 表 示 将 只 负责 获取 整体 语义 中 相对 较 小 的 部 
分 ， 因 而 对 它们 进行 定义 和 建 模 都 会 变 得 更 容易 些 。 和 第 一 条 途径 不 同 的 是 ， 第 二 种 方法 


中 的 每 个 语义 表达 不 会 与 特殊 领域 绑 定 〈 尽 管 只 覆盖 整体 语义 的 某 个 小 部 分 )。 因 此 ， 依 


此 所 创建 的 数据 和 方法 可 适用 于 通用 目的 。 
不 幸 的 是 ， 我 们 还 未 得 到 详细 且 全 局 的 语义 表示 形式 的 圣杯 (holy grail), ZER BE 
能 很 容易 学 习 ， 也 具有 很 高 的 跨 领 域 覆 盖 率 。 所 以 ， 本 章 接受 两 类 意义 表达 的 并 存 : 一 个 是 
领域 相关 的 、 深 层 表 达 ; 另 一 个 是 一 组 相对 浅 层 的 但 通用 、 低 中 层 的 表达 。 能 产生 出 第 一 类 
输出 的 任务 通常 称 为 深层 语义 分 析 (deep semantic parsing)， 而 生成 第 二 类 输出 的 任务 则 通 
常 称 为 浅 层 语义 分 析 (shallow semantic parsing) 。 生 成 这 两 类 输出 的 算法 本 章 都 会 进行 讨论 。 
上 述 两 条 途径 各 有 很 多 问题 。 前 者 由 于 面向 专用 领域 ， 每 移植 到 新 领域 就 需要 对 原 有 
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表示 进行 修改 甚至 从 头 开始 。 换 名 话说 ， 该 表示 方法 在 跨 领 域 时 的 重用 性 是 非常 有 限 的 。 
后 者 的 问题 是 ， 很 难 构建 出 一 种 通用 目的 的 本 体 ， 并 创建 一 种 浅显 因而 容易 学 习 但 又 详细 
到 运用 于 所 有 可 能 应 用 的 符号 系统 。 因 此 ， 我 们 必须 构造 一 个 在 通用 表示 和 专用 表示 之 间 
的 特定 应 用 翻译 层 。 当 然 ， 和 将 专用 表示 迁移 到 新 领域 所 做 的 自 适应 相 比 ， 这 种 翻译 组 件 
相对 还 是 小 的 。 这 些 工 作 也 都 没 开始 考虑 路 语言 使 用 这 类 系统 的 问题 、 不 同 语言 结构 对 这 
些 意义 表达 所 起 的 作用 以 及 它们 的 可 学 习性 等 。 基 于 这 些 原 因 ， 在 语言 处 理 历 史上 ， 相 关 
研究 社区 已 总 体 上 从 更 细节 、 深 度 、 领 域 相 关 的 表示 转移 到 更 浅 层 的 表示 了 。 


4.2 语义 解释 

语义 分 析 可 以 看 成 是 一 个 更 大 的 过 程 一 一 语义 解释 (semantic interpretation) 中 的 一 
部 分 。 该 过 程 整体 而 言 是 让 我 们 可 以 定义 出 文本 的 意义 表示 ， 该 表示 将 进一步 提供 给 计算 
机 以 便 使 它 执 行 语言 理解 系统 或 应 用 所 需 的 进一步 的 计算 处 理 与 搜索 。 语 义理 解 过 程 涉及 
几 个 不 同 的 部 分 ， 下 面 几 个 小 节 将 讨论 其 中 的 主要 部 分 。 

我 们 的 讨论 将 从 Chomsky 影响 深远 的 著作 《Syntactic Structures) [1] 开始 。 该 著作 
引入 了 转换 短语 结构 文法 (transformational phrase structure grammar) 的 概念 ， 该 概念 
给 出 了 一 种 人 类 的 自然 语言 组 合 形式 的 可 操作 定义 。1957 年 Chomsky 的 书 出 版 后 不 久 ， 
Katz 和 Fodor [2] 就 发 表 了 在 生成 文法 范 型 内 的 首 个 语义 相关 工作 。 他 们 发 现 ，Chom- 
sky 的 转换 文法 并 不 是 语言 的 完整 描述 ， 因 为 它 并 没有 考虑 语义 问题 。 在 他 们 1963 年 发 表 
的 文章 “The Structure of a Semantic Theory" 中 ，Katz 和 Fodor 提出 他 们 所 构想 的 一 个 
语义 理论 应 拥有 的 属性 。 一 个 语义 理论 应 该 能 : 

1) 解释 带 有 歧义 的 句子 。 例 如 ， 该 理论 应 能 识别 出 句子 “The bill is large” 中 bill € 
词 的 歧义 COT RE AN RA EURO, 

2) 在 上 下 文中 消解 词语 歧义 。 例 如 ， 如 果 同 一 个 句子 扩展 到 “The bill is large but 
need not be paid” 形 式 ， 则 该 理论 应 该 能 消解 出 bill 单词 与 金融 有 关 的 词义 。 

3) 识别 出 符合 语法 但 无 意义 的 句子 ， 比 如 Chomsky 给 出 的 著名 例子 : Colorless 
green ideas sleep furiously, 

4) 识别 出 与 语法 或 转换 无 关 的 概念 复述 (它们 具有 相同 的 语义 内 容 )。 

下 面 几 个 小 节 将 探讨 为 获取 语义 表示 需 处 理 的 问题 。 


4.2.1 结构 歧义 

当 我 们 讨论 结构 时 ， 通 常 指 的 是 句子 的 语法 结构 。 这 是 一 个 句子 级 的 现象 ， 本 质 含 义 
是 将 句子 转换 为 其 内 含 的 句法 表示 。 由 于 名 法 和 语义 有 太 多 的 强 互动 ， 因 此 多 数 语 义 解 释 
的 理论 都 使 用 深层 的 句法 表示 。 通 常 而 言 ， 句 法 已 成 为 语义 解释 的 第 一 步 ， 后 面 还 有 不 少 
阶段 (关于 句法 处 理 的 相关 信息 请 参看 第 3 929. 


4.2.2 .词义 


任意 给 定 一 种 语言 ， 几 乎 可 以 肯定 存在 同一 词 形 (可 能 具有 不 同 的 形态 变换 ) 在 不 同 
上 下 文中 用 于 表示 不 同 实体 或 概念 的 情形 。 例 如 ， 单 词 nail 既 可 以 表示 人 体 解 剖 学 的 某 部 
分 ( 即 指甲 )， 也 可 以 表示 固定 其 他 物体 的 金属 物 〈( 即 钉子 )。 人 们 擅长 于 通过 上 下 文 识 别 
出 作者 或 说 话 者 在 使 用 该 词 时 的 实际 意图 。 请 看 如 下 4 个 例子 。 诸 如 句子 中 和 四 中 
hammer, hardware store 等 单词 以 及 句子 @@ 和 名 中 的 clipped 和 manicure 等 单词 都 让 人 们 
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可 以 很 容易 消解 出 nail 的 实际 意义 。 
(DHe nailed the loose arm of the chair with a hammer. 
(2He bought a box of nails from the hardware store. 
(He went to the beauty salon to get his nails clipped. 
@ He went to get a manicure. His nails had grown very long. 
因此 ， 在 语 篇 中 消解 词义 已 构成 了 语义 解释 过 程 中 的 一 个 步骤 。 我 们 将 在 4.4 节 中 更 
深入 地 对 该 问题 进行 讨论 。 


4.2.3 实体 与 事件 消解 


任何 语 篇 都 包含 了 在 一 段 时 间 内 发 生 的 一 系列 显 式 或 隐 式 的 事件 以 及 参与 其 中 的 一 组 
实体 。 语 义 解释 的 下 一 个 重要 组 件 是 识别 出 散布 在 语 篇 中 的 各 种 实体 ， 这 些 实体 可 能 使 用 
相同 或 不 同 的 短语 来 表示 。 消 解 出 语 篇 中 所 涉及 的 实体 或 事件 类 型 ， 同 时 对 语 篇 中 同一 实 
体 的 不 同 的 表达 方式 进行 消 歧 ， 对 于 创建 语义 表示 十 分 关键 。 多 年 来 ， 两 个 主流 任务 变 得 
越 来 越 流 行 ， 即 命名 实体 识别 (named entity recognition) 和 共 指 消解 (coreference reso- 
lution)。 这 两 个 任务 一 般 归 入 信息 抽取 (information extraction) 问题 ， 将 在 第 8 BHF 
细 讨 论 。 


4.2.4 ”谓词 - 论 元 结构 

一 旦 完成 了 词义 消 歧 、 实 体 和 事件 识别 ， 就 轮 到 其 他 层 的 语义 结构 处 理 登 场 了 ， 即 如 何 
识别 出 事件 与 实体 间 的 关联 。 确 定 句 子 中 各 谓词 的 论 元 结构 相当 于 识别 出 哪个 实体 扮演 哪个 
事件 的 什么 部 分 。 一 般 而 言 ， 这 一 过 程 可 定义 为 识别 出 谁 (Who) 在 什么 时 间 (When)、 什 
么 地 点 (Where) 对 谁 (Whom) 做 了 什么 事 (What), AR iniii (How). 

图 4-1 显示 了 say 和 acquire 两 个 事件 的 各 参与 者 。 


Bell Atlantic Corp. said it will acquire one of Control Data Corp.'s computer maintenance businesses. 


What 
one of Control Data Corp's 
computer-maintenance 
businesses 


Who 
Bell Atlantic Corp. 


图 4-1 关于 “ 谁 (Who) 在 什么 时 间 (When), HAHA (Where) 对 谁 (Whom) 做 
THAR (What) ， 以 及 如 何 做 的 〈How)” 的 一 个 语义 表示 





4.2.5 意义 表示 


语义 解释 的 最 后 一 个 步 又 是 建立 可 供 各 种 应 用 算法 进一步 处 理 的 语义 表示 或 意义 表 
示 。 这 一 过 程 有 时 也 称 为 深度 表示 (deep representation), RPR, IE wR N-E WRAY 
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的 ， 由 于 目前 还 没有 适用 于 任意 应 用 的 通用 且 深 度 足 够 的 表示 ， 本 领域 中 的 多 数 研 究 都 是 
与 应 用 相关 或 与 领域 相关 的 特定 应 用 。 下 面 两 个 例子 各 给 出 了 一 个 例句 及 其 意义 表示 ， 两 
个 表示 分 别 适 用 于 机 器 人 世界 杯 (RoboCup) 和 GeoQuery 两 个 领域 (具体 描述 见 4.6.1 55); 
1) If our player 2 has the ball, then position our player 5 in the midfield. 
((bowner (player our 2)) (do (player our 5) (pos (midfield))) 
2) Which river is the longest? 
answer(z,, longest(z; river(zj))) 


这 是 领域 相关 的 方法 。 本 章 的 余下 部 分 将 更 多 关注 领域 无 关 的 方法 。 


4.3 系统 范式 


本 章 所 讨论 的 是 计算 语言 学 和 语言 学 界 所 熟知 的 问题 。 这 些 研 究 者 已 经 在 不 同 粒 度 和 
通用 性 层次 上 考察 了 意义 表示 以 及 其 分 析 方 法 ， 也 涉足 了 大 量 语言 。 很 多 时 候 并 没有 可 用 
的 手工 标注 数据 。 因 此 ， 对 处 理 语义 解释 问题 中 涉及 的 各 种 主要 维度 进行 观察 是 很 重要 
的 。 本 章 不 可 能 覆盖 所 有 这 些 维度 ， 尽 管 我 们 会 提 到 许多 历史 方法 ,但 我 们 还 是 尽量 关注 
在 实际 应 用 中 流行 并 成 功 的 方法 。 这 些 方法 总 体 上 可 以 按 如 下 3 种 方式 进行 分 类 。 

1. 系统 架构 (system architecture) 

1) 基于 知识 库 的 方法 : 正如 其 名 所 暗示 的 ， 这 类 系统 使 用 预先 定义 好 的 规则 集 或 知 
识 库 来 解决 新 问题 。 

2) 无 监督 的 方法 : 这 类 系统 倾向 于 通过 利用 现存 的 资源 来 减少 人 工 干预 。 这 些 资 源 
为 特殊 应 用 或 问题 领域 而 擎 衍 (bootstrapping) HÆ. 

3) 有 监督 的 方法 : 这 类 系统 涉及 由 人 工 针 对 规模 足够 的 数据 中 所 出 现 的 现象 进行 标 
注 ， 以 便 可 应 用 机 器 学 习 算 法 。 采 用 这 种 方法 ， 研 究 者 通常 会 创建 特征 函数 并 将 每 个 问题 
实例 都 投射 到 特征 空间 中 。 这 类 方法 所 训练 出 的 模型 将 进一步 利用 这 些 特征 来 预测 标注 ， 
并 应 用 于 未 见 数据 。 

4) 半 监 督 的 方法 : 手工 标注 通常 是 十 分 耗 时 费力 的 ， 而 且 也 无 法 获得 足够 的 数据 以 寺 
括 所 有 的 现象 。 因 而 ， 在 这 类 型 实例 中 ， 研 究 者 们 采用 的 是 自动 扩展 训练 数据 集 的 方式 。 扩 
展 的 途径 可 能 是 直接 应 用 机 器 所 生成 的 输出 ， 也 可 能 是 采用 人 工 校对 数据 的 输出 对 现 有 模型 
进行 拓展 。 很 多 情况 下 ， 我 们 会 采用 一 个 特定 领域 的 模型 并 快速 将 其 自 适 应 到 新 领域 。 

2. 范围 (scope) 

1) 领域 相关 的 方法 : 这 些 系统 适用 于 特定 领域 ， 如 ， 航 空 订 票 或 足球 训练 仿真 等 。 

2) 领域 无 关 的 方法 : 这 类 系统 足够 通用 ， 相 关 技 术 可 以 在 少量 甚至 不 修改 的 前 提 下 
geile thers 

3. Wii (coverage) 

D REDA: 这 些 系 统 倾向 于 产生 中 间 表 示 ， 该 表示 还 需 进 一 步 转换 为 机 器 操作 所 
需 的 结构 。 

2) 深层 方法 : 这 些 系统 通常 创建 机 器 或 应 用 可 直接 使 用 的 最 终 表 示 。 


4.4 词义 
EE ee 
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上 下 文 里 的 不 同 出 现 是 否 能 确定 出 有 限 多 个 不 同 的 含义 集 ? 这 一 问题 目前 尚 不 明了 。 即 使 
这 确实 是 能 做 到 的 ， 但 上 下 文中 的 给 定 词 究竟 归属 于 单个 含义 或 是 对 某 几 个 含义 〈 依 据 不 
同 的 分 布 ， 为 所 有 含义 的 子 集 ) 都 有 关联 也 还 是 不 清楚 。 

有 许多 尝试 解决 此 问题 的 方案 ， 包 括 : 基于 规则 和 基于 知识 库 的 方法 、 完 全 无 监督 的 
学 习 方 法 、 有 监督 的 学 习 方法 以 及 半 监 督 的 学 习 方 法 等 。 早 期 的 主流 系统 是 基于 规则 和 基 
于 知识 库 的 方法 ， 使 用 的 是 依据 词典 定义 的 词义 。 无 监督 的 词义 推导 或 消 歧 技术 则 尝试 依 
据 词 语 在 各 种 语料库 中 的 出 现 推导 出 其 词义 。 这 些 系 统 执行 聚 类 时 可 能 使 用 软 聚 类 也 可 能 
使 用 硬 聚 类 ， 并 倾向 于 根据 特定 应 用 的 需要 调节 这 些 聚 类 。 目 前 多 数 的 有 监督 词义 消 歧 方 
法 则 不 同 ， 其 主要 假设 是 ， 在 预先 定义 好 的 粒度 层次 (通常 是 与 应 用 程序 相关 的 ) 中 ， 特 
定 上 下 文 里 的 一 个 词 只 能 唤醒 一 个 特殊 的 词义 〈 尽 管 有 监督 方法 的 输出 结果 也 还 可 以 进 一 
步 处 理 以 生成 多 个 候选 词义 的 排序 或 分 布 )。 有 监督 的 词义 消 歧 方法 需要 人 工 标注 的 数据 ， 
此 时 ， 对 词义 的 精细 化 区 分 和 让 多 个 标注 者 在 给 定 词 义 集 时 能 有 较 高 的 标注 一 臻 性， 这 两 
者 往往 有 一 种 微妙 的 平衡 。 词 义 粒 度 越 粗 ， 标 注 者 之 间 就 越 容易 通过 学 习 而 达成 一 致 。 然 
而 ， 对 于 应 用 程序 而 言 ， 这 种 低 粒 度 的 词义 很 可 能 不 能 很 好 地 标识 出 词 的 微妙 差别 。 标 |102 
TE -学 习 循 环 中 观察 到 成 功 并 不 能 直接 说 明 该 意义 表示 的 深度 已 符合 应 用 程序 的 需要 。 对 
这 一 问题 Palmer, Dang 和 Fellbaum 等 人 [6] 曾 进行 了 详尽 的 讨论 。. 

尽管 词义 消 歧 在 理论 上 被 假想 为 语言 理解 的 重要 方面 ， 但 其 适用 性 似乎 还 是 一 个 备 受 
争议 的 问题 。 构 造 大 规模 手工 标注 词义 的 语料库 本 身 十 分 困难 ， 词 义 消 歧 系 统 在 各 种 应 用 
中 适用 性 的 复杂 现状 及 模棱两可 的 状态 部 分 地 导致 了 只 有 很 少 的 计算 资源 被 产生 ， 以 文 持 
创建 更 好 的 自动 系统 。 而 且 ， 标 准 的 缺乏 也 使 得 包含 词义 信息 的 各 种 资源 的 合并 无 法 进 
行 。 实 际 上 ， 有 些 尝试 正 是 希望 在 这 些 资 源 间 建立 映射 。 

根据 Resnik 和 Yarowsky 的 观察 [7j， 存 在 这 种 矛盾 心理 的 主要 原因 之 一 是 ， 在 诸如 
信息 检索 和 语音 识别 等 在 内 的 许多 更 为 成 熟 的 语言 处 理应 用 中 ， 词义 消 卜 技 术 要 人 么 显得 多 
余 要 么 有 更 廉价 且 更 好 的 替代 品 。 在 信息 检索 领域 里 ， 广 泛 接受 的 事实 是 ， 查 询 中 的 多 个 
词 匹 配 文档 上 下 文中 的 多 个 词 ， 以 提供 包含 相当 好 的 词义 信息 的 隐 消 歧 过 程 ， 常 规 的 消 层 
技术 往往 很 难 超越 其 效果 [8]。 在 语音 识别 领域 中 ， 上 下 文 类 [9, 10] 常常 被 证 明 比 词 
语 类 [11] 更 为 适用 。 特 定 领 域 或 文本 体裁 往往 倾向 于 唤醒 给 定 词 词义 的 较 小 子 集 ， 甚 至 
只 唤醒 给 定 词 的 其 中 一 个 词义 。 因 此 ， 鉴 于 有 些 语 义 分 析 系 统 是 特定 领域 的 ， 而 有 些 则 是 
领域 无 关 的 ， 后 者 较 前 者 而 言 更 需要 词义 消 歧 。 此 外 ， 特 定 领域 应 用 中 一 个 词 通常 会 映射 
到 单一 概念 ， 而 找到 这 种 映射 是 相对 简单 的 问题 ， 这 也 进一步 削弱 了 词义 消 层 的 必要 性。 
Resnik 和 Yarowsky [7] 指出 词义 消 歧 缺 乏 进展 的 几 个 原因 : 缺乏 标准 的 评测 ; 相 比 其 他 
任务 ， 本 任务 需要 更 大 范围 的 资源 以 提供 所 需 的 知识 ; 以 及 很 难 获得 足够 大 的 词义 标注 数 
据 集 。 受 该 研究 驱动 ，SIGLEX (Special Interest Group on LEXicon) 举行 了 多 次 评测 : 
SENSEVAL 1, 2 和 3 以 及 SEMEVAL 1 $1 2, 这 些 比 赛 在 生成 标准 数据 集 和 评价 标准 方 
面 非常 成 功 ， 同 时 也 确定 了 推进 对 词义 消 歧 及 其 应 用 的 理解 的 相关 任务 。 

如 何 测量 自动 词义 消 歧 系统 的 性 能 是 一 个 重要 问题 。Gale、Church 和 Yarowsky [12] 
对 此 问题 进行 了 详细 的 讨论 。 他 们 的 建议 是 ,词义 消 歧 系统 的 性 能 下 界 应 该 是 将 词语 的 每 
个 实例 都 对 应 为 其 在 足够 大 语料库 中 最 频繁 出 现 的 词义 。 该 建议 目前 仍然 被 普遍 遵循 。 这 
也 就 是 通常 所 谓 的 最 频繁 词义 (Most Frequent Sense. MFS) 基线 系统 。 词义 标注 的 标准 
答案 (gold-standard) 语 料 应 具备 的 一 个 好 的 属性 是 ， 它 应 在 一 定 程度 上 是 可 复 现 的 
(replicable)。 换 名 话说， 多 个 标注 者 对 同一 个 语 料 的 标注 应 有 足够 高 的 一 臻 性。 比方 说 ， 
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该 一 致 性 是 zx%， 则 我 们 通常 会 将 ce HAE BABES ERE _E BR. 

词汇 歧义 有 3 种 主要 类 型 : 1) 同形 异 义 Chomonymy); 2) 多 义 (polysemy); 3) 3f 
类 歧义 (categorial ambiguity) [13]。 同 形 异 义 表 示 一 个 拼写 相同 的 词 有 不 同 的 含义 。 同 
形 异 义 的 每 个 词义 又 可 能 包含 更 细 的 词义 差别 ， 需 要 依据 上 下 文才 能 确定 ， 这 种 现象 称 为 
ZX. På, bank 的 如 下 两 个 词义 是 完全 不 相关 的 : financial bank (BD 48 £7). 和 river 
bank 〈( 即 岸 )。 进 一 步 说 ，bank 的 词义 还 有 一 些 更 细 的 相关 词义 一 一 表明 事物 的 集合 ， 
ii, financial bank ( 即 银 行 ) 和 bank of clouds (云层 )， 两 个 bank 就 构成 了 多 义 。 我 们 
可 用 一 个 例子 来 解释 兼 类 歧义 。book 可 以 表示 书本 ， 也 可 以 表示 立案 ， 前 者 的 语法 范 团 
是 名 词 ， 后 者 的 语法 范畴 则 是 动词 。 区 分 这 两 类 有 助 于 上 述 两 个 词义 的 消解 。 因 此 ， 兼 类 
收 义 可 仅 利 用 句法 〈 词 性 ) 信息 消解 ， 多 义 和 同 形 异 义 则 需要 更 多 句法 之 上 的 信息 。 

按 传 统 做 法 ， 英 语词 义 标注 是 针对 每 个 词性 单独 做 的 ， 而 中 文 词义 标注 则 针对 词 形 ， 
因而 可 能 跨 词 类 。 部 分 原因 是 中 文 名 词 和 动词 间 的 区 别 更 加 隐 星 。 


4.4.1 资源 


和 任何 语言 理解 任务 一 样 ， 资源 的 可 获得 性 对 词义 消 歧 也 是 十 分 关键 的 。 不 幸 的 是 ， 
至 少 直到 最 近 ， 还 没 能 看 到 词义 消 歧 社区 开发 出 大 规模 的 手工 标注 词义 的 数据 。 词 义 消 歧 
的 早期 工作 用 机 器 可 读 的 字典 或 辞典 作为 知识 源 。 两 个 主流 的 来 源 是 朗 文 当代 英语 词典 
(Longman Dictionary of Contemporary English, LDOCE) [14] 和 罗氏 义 类 词典 (Roget's 
Thesaurus) [15], 20 世纪 80 年 代 后 期 诞生 的 重要 字典 资源 一 一 WordNet [16] 一直 也 非 
常 有 影响 力 。WordNet 不 仅 是 一 个 包含 了 大 部 分 英语 单词 在 多 个 词类 上 的 词义 的 词汇 资 
源 ， 还 包含 了 一 个 丰富 的 义 类 系统 (taxonomy)， 该 系统 用 许多 不 同 的 关系 将 各 单词 联系 
起 来 。 这 些 关系 有 : 上 下 位 关系 (hyperonymy)、 同 形 异 义 关系 、 整 体 部 分 关系 (meron- 
ymy) 等 。 此 外 ， 为 方便 自动 词义 消 歧 研 究 ，WordNet 还 提供 了 一 个 标注 了 WordNet 词 
义 的 语义 索引 (“SEMCOR) iE [18]. 该 语 料 文 本 为 Brown 语 料 [17」 中 的 一 小 部 分 。 
最 近 ，WordNet 又 做 了 一 些 扩 展 ， 即 注释 部 分 添加 了 句法 信息 、 手 动 和 自动 消 歧 方法 以 及 
生成 逻辑 形式 ， 以 便 更 好 地 应 用 在 诸如 问答 的 应 用 中 L19j。 另 一 个 语 料 是 DSO 英语 词义 
标注 语 料 (DSO Corpus of Sense-Tagged English). 该 语 料 是 通过 将 Brown 语 料 和 华尔街 
日 报 (Wall Street Journal, WSJ) 语 料 中 最 常见 且 有 歧义 的 英文 单词 (包括 121 个 名 词 和 
70 个 动词 ) 标注 为 WordNet 1.5 词义 而 得 [20j。 另 外 ， 过 去 十 年 来 举行 的 SENSEVAL 
[21] 评测 也 创建 了 很 多 用 于 测试 词义 和 相关 问题 系统 的 语 料 。 到 目前 为 止 花费 力气 最 大 
的 是 通过 语言 数据 联盟 (Linguistic Data Consortium. LDC) 发 布 的 OntoNotes 语 料 [22， 
23, 24]。 其 中 标注 了 大 量 的 动词 (大约 2700 个 ) 和 名词 (大约 2200 F), WAAKA 85% 
的 粗 粒 度 词义 。 该 集合 是 多 文体 的 而 且 具 有 非常 高 的 跨 标 注 者 一 致 性 。SEMEVAL 2007 
E Pradhan 等 人 [25] 组 织 的 词汇 抽样 任务 就 使 用 该 语 料 。Cyc [26] 是 另 一 个 有 用 资源 
的 例子 。 它 创建 了 一 个 与 世界 中 对 象 和 事件 相关 的 常识 知识 的 形式 化 表示 ， 意 图 克服 在 词 
义 消 歧 和 许多 其 他 自然 语言 任务 中 至 关 重 要 的 所 谓 知 识 瓶 颈 。 该 知识 库 尽 管 经 过 几 十 年 的 
手工 构建 ， 目 前 还 有 许多 有 竺 改进 之 处 ， 这 也 突显 了 这 一 努力 的 难度 。 

英语 似乎 有 最 发 达 的 字典 ， 包 含 了 词 的 各 种 语义 特征 以 及 由 词语 组 合并 形成 的 连贯 
语义 类 。 目 前 大 家 也 正在 努力 创建 其 他 语言 的 资源 。 例 如 ， 知 网 127] 就 是 一 种 类 似 
WordNet 的 中 文 词语 资源 。WordNet 全 球 协 会 (Global WordNet Association, http://www. 
globalwordnet. org) 致力 于 跟踪 WordNet 的 跨越 语言 开发 。 研 究 人 员 还 用 半自动 的 方法 不 断 
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扩大 现 有 语言 的 覆盖 面 [28. 29, 30, 31] 或 扩展 到 诸如 希腊 语 的 其 他 语言 [32]。 除 了 词 
义 标 注 语料库 外 ， 有 许多 类 似 WordNet Domains (http://wndomains. fbk. eu/) 等 的 资源 。 该 
资源 提供 了 结构 化 的 知识 ， 可 以 帮助 克服 词义 消 歧 的 知识 瓶颈 ，。 


4.4.2 系统 


讨论 完 词 的 卜 义 问题 和 某 些 资源 后 ， 我 们 开始 转向 对 一 些 词 义 消 歧 系统 的 讨论 。 正 如 
更 早 提 到 过 的 ， 对 于 词义 消解 问题 ， 研 究 者 已 探索 了 各 种 系统 体系 。 我 们 可 以 将 这 些 系统 
划分 为 4 类 : 1) 基于 规则 或 知识 的 系统 ; 2 有 监督 的 系统 ; 3) 无 监督 的 系统 ; 4) 半 监 
督 的 系统 。 

在 下 面 几 个 小 节 中 ， 我 们 将 依次 介绍 上 述 的 每 种 系统 。 

1. 基于 规则 的 方法 

第 一 代 的 词义 消 歧 系 统 主要 基于 字典 词义 定义 和 注释 [33. 34]。 这 些 技术 大 部 分 都 
是 手工 制作 的 ， 使 用 的 资源 如 今 已 不 一 定 可 用 。 此 外 ， 可 访问 的 确切 规则 和 系统 也 非常 有 
限 ， 大 部 分 信息 只 能 从 存档 的 出 版 物 和 讨论 中 获得 ， 也 只 是 那些 实验 过 程 中 的 某 些 具体 词 
和 词义 。 总 之 ， 大 部 分 信息 只 具有 历史 意义 ， 目 前 已 无 法 轻易 用 于 转换 以 及 构建 系统 。 然 
而 ， 我 们 还 是 可 以 获得 一 些 有 价值 的 技术 和 算法 (本 节 中 将 讨论 它们 )。 也 许 最 简单 并 且 最 
古老 的 基于 字典 的 词义 消 歧 算法 是 由 :Lesk 提出 的 [35]。 第 一 代 的 词义 消 歧 算法 大 多 是 基于 
机 器 可 读 字典 ,例子 请 参看 Calzolari 和 Picchi 的 文献 [33]. 

第 一 届 SENSEVAL 评测 [36] 在 比较 词义 消 歧 性 能 时 使 用 一 个 简化 的 Lesk 算法 作为 基 
准 系统 。 该 算法 的 伪 码 如 算法 4-1 所 示 。 算 法 的 核心 思想 是 : 词 在 给 定 上 下 文中 的 词义 最 有 
可 能 是 其 字典 解释 与 该 上 下 文 重 全 最 大 的 那 条 词典 义 。 该 算法 在 此 后 还 有 进一步 的 修改 ， 以 
使 其 更 鲁 棒 ， 能 适用 于 各 种 不 同 的 字典 条 目 、 上 下 文 及 定义 。 例 如 ，Banerjiee 和 Pedersen 的 
工作 [37] 就 是 对 Lesk 算法 的 修订 ， 该 算法 对 上 下 文 和 字典 定义 中 的 词语 考虑 了 同义词 、 
上 位 词 、 下 位 词 以 及 整体 等 ， 以 期 获得 更 准确 的 重合 统计 ; 匹配 分 值 的 取 值 为 上 下 文 和 注释 
的 最 大 公共 子 序列 长 度 的 平方 ; 使 用 长 度 为 5 个 词 的 上 下 文 窗口 (目标 词 本 身 以 及 其 左右 
各 两 个 词 ) 。 他 们 报告 改进 后 的 算法 在 SENSEVAL-2 词汇 范例 数据 集 上 的 性 能 较 普 通 Lesk 
算法 提升 了 两 倍 (从 16%% 提 升 至 32%)。 这 种 性 能 提升 是 显著 的 ， 毕 竟 该 算法 相当 简单 。 


算法 4-1 简化 的 Lesk 算法 的 伪 代 码 函 数 : computeOverlap 返回 两 个 集合 中 公共 词 个 数 


Procedure: SIMPLIFIED_LESK(word, sentence) returns word 的 最 佳 词 义 


1: best-sense — word 的 最 常见 词义 

2: maz-overlap — 0 

3: context — sentence 中 的 词语 集合 

4: for all sense € word 的 所 有 词义 do 

5: signature sense 的 注释 和 范例 中 的 词语 集合 

6 overlap — COMPUTEOVERLAP(signature, contezt) 
7: if overlap gt maz-overlap then 
8 maz-overlap — overlap 


9: best-sense — sense 
10: end if 
11: end for 


12: return best-sense 


e ”同一 个 注释 中 包含 多 个 子 序 列 的 情况 是 可 能 出 现 的 ， 但 是 ， 仅 包含 代词 、 介 词 、 连 词 等 非 实体 词 的 子 序 列 将 不 会 
Mz. PW. FFI “of the” 在 计算 分 值 时 是 不 会 被 考虑 的 。 
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另 一 种 基于 字典 的 算法 是 Yarowsky 提出 的 [38」]。 该 研究 使 用 了 罗氏 义 类 词典 类 别 
并 将 未 见 词语 分 类 到 这 1042 个 类 别 之 一 。 分 类 的 依据 是 在 大 规模 语 料 上 对 每 个 类 别 的 
每 个 成 员 各 100 ARRIA (word concordance) 的 统计 分 析 。 研 究 中 用 到 的 语料库 是 1 
千 万 词 的 Grolier 百科 全 书 (Grolier’s Encyclopedia) 。 该 方法 在 之 前 曾 做 过 的 一 些 定量 研 
究 的 12 个 词 集 上 表现 得 相当 不 错 。 尽 管 该 研究 中 使 用 的 实例 和 语料库 和 先前 所 报道 的 
都 不 同 ,但 它 仍然 体现 了 相对 简单 方法 的 成 功 。 该 方法 包括 三 个 步骤 ， 如 图 4-2 所 示 。 第 
一 步 是 收集 上 上 下文。 第 二 步 是 为 每 个 显著 词 


计算 权重 。 需 要 注意 的 一 点 是 ， 此 处 的 上 下 |1. 收集 Roger 辞典 每 个 类 别 的 上 下 文 ， 
文 窗口 大 小 是 目标 词 两 侧 各 50 个 词 ， 这 远 | 2. 确定 上 下 文中 所 有 显著 词 的 权重 。 
远大 于 Gale 等 人 [12] 所 发 现 的 对 这 类 宽 Eu RO 


PCw;) 


泛 型 话题 分 类 问题 有 用 的 上 下 文 窗口 大 小 。 | 3. 将 这 些 权重 用 于 预测 测试 语 料 中 每 个 词 的 最 佳 类 别 。 
P(w | RCat) 是 单词 w 出 现在 Roget 辞典 TT XT. P Gu; eee 
分 类 RCat 上 下 文 的 概率 。 最 后 ， 在 第 三 步 en T 
中 ， 测 试 集 里 的 未 见 单词 就 被 归 人 具 最 大 权 图 4:2 将 词义 消解 为 Roget 辞典 类 别 的 算法 
重 的 类 别 。 

最 近 ，Navigli 和 Velardi (39, 40] 提出 了 一 个 基于 知识 的 算法 ， 该 算法 在 为 歧义 词 
消 歧 时 采用 图 表示 法 来 表示 其 上 下 文中 各 单词 的 词义 。 这 就 是 所 谓 的 结构 语义 互 连 
(Structural Semantic Interconnection, SSI 算法 。 它 使 用 包括 WordNet、 领 域 标签 [41] 
及 所 有 可 能 的 标注 语 料 在 内 的 多 种 信息 来 源 构成 概念 的 结构 描述 ， 或 称 语义 图 。 该 算法 包 
含 两 个 步骤 : 初始 化 步骤 和 办 代 步 邓 。 算 法 通过 不 断 迭 代 ， 试 图 消除 上 下 文中 所 有 单词 的 
歧义 ， 直 到 它 无 法 再 消 歧 或 所 有 术语 都 已 成 功 消 卜 。 此 算法 的 性 能 非常 接近 监督 学 习 算 
法 。 虽 然 从 技术 上 说 它 没 有 训练 阶段 ， 但 是 在 SENSEVAL-3 的 all-words 任务 中 它 还 是 超 
越 了 最 好 的 无 监督 算法 。 图 4-3 显示 了 术语 bus 的 两 个 词义 的 语义 图 。 第 一 个 是 交通 工具 
(vehicle 义 〈 即 公共 汽车 ); 第 二 个 则 是 连接 器 (connector) 义 ( 即 总 线 )。 
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图 4-3 由 SSI 算 法 生成 的 名 词 bus 的 两 个 词义 的 相关 语义 图 


记号 : 

e T, WILE RM (lexical context) ， 指 待 消 歧 术 语 上 的 上 下 文中 所 出 现 的 术语 列表 。 
下 

e Sis Sj. ，…，S, Æt 所 有 可 能 概念 或 词义 的 结构 描述 。 

e I, i&X.ETX (semantic context) 也 是 一 个 列表 ， 列 表 中 是 TIH) 集合 (不 包括 
t) 里 每 个 术语 的 相关 概念 所 对 应 的 结构 描述 。[ 王 [Si Se Sp] EME T WE 
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义 解释 (semantic interpretation) 。 
。G 指 结构 描述 间 各 种 关系 的 文法 定义 ， 所 谓 关 系 也 就 是 图 中 的 语义 互 连 (semantic 
interconnection) , 

。 使 用 G 来 确定 I 中 各 结构 描述 与 Si1，S;，…，S, 的 匹配 程度 。 

。 选择 最 匹配 的 Si 。 

该 算法 的 工作 原理 如 下 。 人 算法 维护 一 个 上 下 文中 待 消 玻 术语 集合 .PP 三 { 妖 | S5 =null}, 
EX P 中 术语 进行 消 卜 的 每 个 循环 中 都 使 用 I。 每 次 循环 结束 要 么 完成 P 中 一 个 术语 的 消 
歧 并 将 其 从 待 销 时 术语 表 中 删除 ， 要 么 结束 整个 算法 〈 这 时 已 没有 可 供 消 歧 的 术语 了 )。 
输出 工 将 用 上 的 词义 进行 更 新 。 一 开始 工具 包含 集合 Tt》 中 的 单 义 术语 以 及 任何 可 能 的 
已 消 歧 的 同义词 集 (因为 我 们 使 用 了 词义 标注 数据 )S 。 如 果 工 是 一 个 空 集 ， 则 算法 的 初 
始 猜 测 将 是 上 下 文中 具有 最 少 卜 义 的 词汇 最 有 可 能 的 词义 。 每 次 迭代 ， 算 法 都 会 选取 P 中 
的 一 个 术语 te 该 术语 至 少 有 一 个 词义 5S 与 中 的 一 个 或 多 个 词义 有 语义 互 连 。 孙 数 
fiS.) 用 于 衡量 SEA + 正确 解释 的 可 能 ， 其 定义 如 下 : 
p({yp(S,S')|S € ID. 如果 S € Senses(t) 
0, 否则 
其 中 ，Senses(t) 指 与 术语 t 相 关联 的 词义 ， 而 

p(S,S ) =p({w(el* ez * en) | Si Verum gs rS Sai CSS B (4. 2) 
即 连接 每 条 SAS WEE Co) 的 函数 (p )。 其 中 ，S 和 5S” 是 语义 图 ， 而 e1 到 e 
为 连接 它们 的 边 集 。p 和 p 的 一 种 较 好 的 选择 是 求 和 或 平均 和 函数 。 
最 后 ， 上 下 文 无 关 文法 GG—(E,N.SG.PGO 编码 了 所 有 有 意义 的 语义 模式 ， 其 中 


Ji OS. D — UE T 


E: legio y enkind *Óparbof * } 
是 边 的 标签 集 ; 
N = (Se,8, Sy 1 $92 ,"* y Ey Eo, tee } 
是 用 于 编码 词义 间 路 径 的 非 终结 符 集 ; 


Se 
是 图 G 的 开始 符号 ， 而 
Pc ={Sc > S, | S,,S, — Si | S2 | Ss,S1 > ES | Ei, 
Ei — ejind—of | €part—of »Sg > CgiossSs | Sa | Ss ee} 
则 是 产生 式 规则 集 〈 据 该 研究 报告 大 约 有 40 4. 
WordNet 中 的 层次 概念 信息 已 在 许多 方法 中 被 成 功 应 用 了 。 关 于 几 种 基于 WordNet 
的 语义 相似 度 计算 的 比较 请 参考 Patwardhan, Banerjee 和 Pedersen [42]。 最 近 出 现 的 诸 
如 维基 百科 (Wikipedia) 的 无 结构 知识 库 已 导致 了 新 一 代 的 算法 ， 这 些 算 法 从 这 类 知识 
库 中 提取 蕴涵 的 知识 以 辅助 生成 覆盖 范围 更 广 且 多 语言 的 知识 库 (原先 主要 依靠 类 似 
WordNet 的 资源 ) 并 帮助 许多 任务 (如 词义 消 歧 等 ) 的 最 先进 模型 进一步 提高 。Strube 和 
Ponzetto [43, 44] 提供 一 个 名 为 WikiRelate! 的 算法 ， 该 算法 使 用 维基 百科 的 分 类 层级 
估算 两 个 概念 间 的 距离 。 最 近 ，Navigli 和 Ponzetto [45] 则 介绍 了 一 种 新 的 自动 创建 多 
语种 词汇 知识 库 的 方法 ， 该 方法 实现 了 大 规模 多 语 资源 维基 百科 和 英语 计算 词典 WordNet 
之 间 的 映射 。 该 知识 库 目 前 包括 了 6 种 语言 (德语 、 西 班 牙 语 、 加 泰 罗 尼 亚 语 、 意 大 利 
语 、 法 语 和 英语 )。 这 些 语言 与 可 免费 获得 的 WordNet 之 间 的 映射 也 可 以 很 容易 通过 以 英 


e ”同义词 集 指 具 有 相同 词义 的 词 构 成 的 集合 。 该 术语 由 WordNet 的 开发 者 创造 [16]. 
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i WordNet 为 中 间 语 言 的 方式 加 以 实现 。 随 着 维基 百科 的 持续 增长 ， 许 多 其 他 语言 的 资 
源 也 可 以 使 用 这 种 方法 生成 。 作 为 一 个 起 点 ，Ponzetto 和 Navigli [46] 已 经 表明 ,基于 
BabelNet 中 英语 信息 所 创建 的 词义 消 战 系统 与 以 前 粗 粒度 词义 消 歧 任务 的 诸 方法 以 及 特定 
领域 的 词义 消 此 方法 都 势均力敌 。 

2. 有 监督 的 方法 

具有 讽刺 意味 的 是 ， 较 简单 的 词义 消 歧 系统 形式 一 一 有 监督 的 方法 (将 复杂 性 推 给 机 
馈 学 习 机 制 并 需要 手工 标注 的 数据 〉 往往 优 于 无 监督 的 方法 ， 在 标注 数据 上 的 测试 也 能 取 
得 最 好 的 结果 [21]j。 此 方法 的 缺点 是 ， 词 义 库 必 须 预 先 确 定 ， 词 义 库 的 任何 变化 都 会 导 
致 一 轮 昂贵 的 重新 标注 。 

这 些 系统 通常 包括 一 个 机 器 学 习 分 类 器 ， 该 分 类 器 会 在 给 定 的 手动 消 歧 后 的 语 料 中 所 
抽取 的 词语 的 各 种 特征 集 上 进行 训练 ， 训 练 后 的 分 类 器 则 用 来 对 未 见 的 测试 集 进 行 消 歧 。 
这 些 系 统一 个 很 好 的 特点 是 ， 为 了 达到 最 佳 的 效果 〈 和 所 有 三 种 方法 对 比 )， 用 户 可 以 在 
特征 中 融合 规则 和 知识 ， 也 可 以 半自动 地 生成 训练 数据 以 扩充 手动 标注 的 训练 集 。 当 然 ， 
前 者 可 能 有 一 个 特定 的 知识 源 或 分 类 器 结合 问题 ， 这 也 导致 最 优 特征 表示 很 难 获 得 ; 后 者 
的 问题 是 半 目 动 方式 所 生成 的 词义 标记 数据 都 有 不 同 程度 的 噪声 。 然 而 ， 最 先进 的 系统 通 
常 结 合 了 丰富 的 特征 并 利用 了 语言 的 元 余 。 

本 节 中 我 们 将 讨论 典型 的 系统 和 特征 。Brown 等 人 [47] 可 能 是 第 一 个 在 词义 消 歧 中 
使 用 机 器 学 习 的 ， 他 们 的 研究 使 用 了 平行 语料库 中 的 信息 。Yarowsky [48] 则 是 最 早 在 
机 器 学 习 框 架 (决策 表 ) 中 使 用 丰富 特征 集 解 决 词 义 消 歧 的 。 其 他 研究 者 如 Ng 和 Lee 
[20, 49] 等 ， 则 使 用 了 这 些 特征 ， 并 在 各 种 不 同 的 上 下 文 层 次 和 粒度 中 完善 了 它们 ， 涉 
及 的 层次 和 粒度 包括 句子 、 段 落 以 及 微 上 和 下文 (microcontext) 等 。 本 节 我 们 将 探讨 一 些 
较 流 行 的 方法 和 相对 较 容 易 获 得 的 特征 。 

分 类 器 (classifier) Ee% FH BS i E BE OPK a8 HI BE Ae Sc SEIS] RC BLICK (MaxEnt) 
分 类 器 了 。 基 于 这 两 类 分 类 器 都 有 许多 高 质量 且 免 费 获 得 的 系统 ， 可 以 用 于 训练 词义 消 歧 
模型 。 通 常情 况 下 ， 因 为 每 个 词语 原形 (Gemma) 有 各 自 的 词义 清单 ， 但 对 于 每 个 原形 和 
WAG 〈 即 对 于 类 似 英语 的 语言 ， 各 种 词性 都 对 应 各 自 的 词义 清单 ) 都 要 训练 一 个 单独 
的 模型 。 

特征 集 (features) “我们 将 讨论 一 个 常用 的 特征 子 集 ， 其 中 特征 都 是 词义 消 野 的 有 
监督 学 习 方 法 中 较 有 用 的 。 这 不 是 一 个 穷尽 的 列表 ， 而 只 是 一 些 经 过 时 间 检 验 的 特征 。 这 
些 特征 提供 了 一 个 很 好 的 基础 ， 可 用 于 获得 近似 最 优 的 性 能 。 

。 词汇 上 下 文 一 一 些 特征 包含 出 现在 整个 段落 或 较 小 窗口 (通常 5 个 词语 ) 内 的 单 
词 或 原形 。 
词性 一 一 些 特征 包括 待 标注 词义 的 单词 周边 窗口 内 诸 词 的 POS 信息 。 

EFR (bag of words context) 一 一 些 特征 是 上 下 文 窗口 所 包含 词 的 无 序 集 

合 。 可 以 通过 调整 阔 值 将 较 大 上 下 文 范 围 内 最 具有 信息 的 词语 包含 进来 。 

。 局 部 搭配 (local collocation) 一 一 局 部 搭配 是 目标 词 周 边 短 语 的 有 序 序列 ， 为 目标 
词 消 歧 提供 了 语义 上 下 文 。 一 般 ， 目标 词 两 侧 各 3 个 词 左右 的 窗口 中 的 二 元 组 或 
三 元 组 会 被 加 入 此 特征 列表 。 例 如 ， 如 果 目 标 词 是 w, M Ci,; 就 是 该 词 的 一 个 搭 
W. Ep imj 分 别 指 该 搭配 的 起 点 以 及 偏 移 量 ( 均 为 相对 于 词 w 的 相对 值 )， 正 
数 表示 目标 词 右边 的 词 ， 负 号 表示 目标 词 左边 的 词 。 

下 面 这 组 11 个 特征 是 Ng 和 Lee[20,，50」 所 使 用 的 搭配 特征 : Cas. Cii. C22. 
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Coe. Cai. Cai. Ciz, Ca. Cou. Ca. Cis. IERI BEIDE TM nau BRAY 
例子 (He bought a box of nails from the hardware store.) 来 对 其 中 的 几 个 加 以 说 明 。 
在 这 个 例子 中 ， 搭 配 Ci,1 将 是 单词 from， 而 C1,3 则 是 词 串 from the hardware 等 。 通常 
情况 下 ， 在 创建 搭配 之 前 停 用 词 和 标点 是 不 会 被 删除 的 。 边 界 条 件 则 可 通过 在 搭配 中 添 
加 空 词 而 得 到 处 理 。 研 究 人 员 还 可 以 尝试 词根 或 其 他 变形 ， 它 们 也 可 能 有 助 于 更 好 地 泛 。 [110| 
化 上 下 文 形 式 。Gale 等 人 [12] 讨论 了 应 该 以 什么 样 的 标准 来 选择 搭配 的 上 下 文 和 
数量 。 

。 句法 关系 (syntactic relation). 一 一 如 果 可 以 获得 目标 词 所 属 句 子 的 分 析 结 构 ， 那 

么 我 们 就 可 以 使 用 句法 特征 。Lee 和 Ng[49] 提出 的 一 组 特征 如 算法 4-2 所 示 。 

。 主题 特征 (topic feature) 一 一 该 词 所 在 文章 的 广义 话题 或 领域 ,也 是 该 词 最 常见 

词义 的 一 个 很 好 的 指示 器 。 
Chen 和 Palmer [51] 最 近 提 出 了 一 些 额外 的 、 用 于 消 歧 的 丰富 特征 ; 
。 句子 的 语 态 (voice of the sentence) 一 一 此 三 值 特征 表明 该 词 所 在 的 句子 是 被 动 
句 、 半 被 动 句 3 或 是 主动 句 。 

。 主语 或 宾语 是 否 出 现 (presence of subject/object) 一 一 此 二 值 特征 表明 目标 词 是 
否 有 主语 或 宾语 。 给 定 大 量 训练 数据 ， 我 们 也 可 以 使 用 实际 的 语素 和 可 能 的 语义 
角色 来 代替 句法 主语 或 宾语 。 

* 句子 补 语 (sentential complement) 一 一 此 二 值 特征 表明 单词 是 否 有 人 句子 补 语 。 
附属 介词 短语 (prepositional phrase adjunct) 一 一 此 特征 表明 目标 词 是 否 有 介词 
短语 。 如 果 是 ， 则 该 介词 短语 里 的 名 词 短 语 中 心 词 将 被 选 为 特征 。 

。 命名 实体 (named entity) 一 一 本 特征 为 专 有 名 词 和 某 类 通用 名 词 等 命名 实体 。 
WordNet 一 一 动词 和 介词 的 名 词 短 语 论 元 的 中 心 词 的 WordNet 上 位 同义词 集 。 


算法 4-2 ”将 句法 关系 选择 为 特征 的 规则 





:于 也 是 名 词 noun then 

选择 其 父 中 心 词 (parent head word) , i5 X 

选择 的 词性 

选择 hh 的 语 态 ( voice ) 

选择 hh 的 位 置 ( 左 或 右 ) 
else if wj 是 动词 then 

选择 也 左 邻 居中 以 包 为 其 父 中心 词 的 最 近 那 个 邻居 1 

选择 岂 右 邻居 中 以 也 为 其 父 中心 词 的 最 近 那 个 邻居 rr 

9; ”选择 1 的 词性 
10: ”选择 7 的 词性 
11: ”选择 也 的 词性 
12: ”选择 也 的 语 态 
13: else if w 是 形容 词 then 
14: ”选择 其 父 中 心 词 ， 记 为 h 
15: ”选择 hh 的 词性 
16: end if 111 


Sapo r SP k 


最 近 ， 受 语义 角色 标注 研究 启发 ，Dligach 和 Palmer[52] 提出 了 如 下 用 于 动词 词义 消 
It EP] RETE : 

。 BB (path) 一 一 本 特征 是 从 目标 动词 到 其 论 元 的 路 径 。 

。 次 范畴 (subcategorization) 一 一 次 范畴 框架 本 质 上 是 由 该 动词 短语 类 型 与 其 子女 


日 ”动词 的 过 去 分 词 形式 但 又 不 是 以 be 或 have 引导 ， 这 称 为 半 被 动 。 
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的 短语 类 型 连接 而 成 的 字符 串 。 
最 有 可 能 出 现 的 情况 的 是 ， 开 发 人 员 不 得 不 为 每 个 词 都 执行 特征 选择 ， 以 获得 每 个 特 
定 词 的 最 佳 特征 集 。 
3. 无 监督 的 方法 


由 于 缺乏 用 于 训练 通用 分 类 器 〈 针 对 给 定语 言 每 个 单词 的 每 个 词义 ) 的 标注 训练 数 
据 ， 词 义 消 此 的 进展 受到 了 极 大 的 阻碍 。 针 对 这 一 问题 ， 有 一 些 解 决 途径 : 

D 设计 一 种 方法 对 词 的 不 同 出 现实 例 进行 聚 类 ， 以 便 使 每 个 聚 出 的 类 都 有 效 地 将 该 词 
的 相关 实例 限定 为 某 一 特定 词义 。 这 种 方式 可 被 视 为 基于 聚 类 的 词义 归纳 (sense induction) 。 

2) 使 用 某 种 度量 标准 计算 给 定 实 例 与 该 词 某 些 已 知 词义 组 之 间 的 接近 度 并 选择 最 接 
近 的 词义 作为 该 实例 的 词义 。 

3) 每 个 词义 都 从 一 个 种 子 (seed) 实例 集 开 始 ， 然 后 采用 和 迭代 的 方式 不 断 对 这 些 集 
合 进 行 扩展 并 最 终 形成 聚 类 结果 。 

ERE, 我 们 将 不 会 对 多 数 基于 聚 类 的 词义 推导 方法 进行 详细 讨论 。 我 们 假设 每 词 都 
有 一 个 预定 义 的 词义 集 ， 无 监督 的 方法 将 使 用 非常 少 CIR HIR FETU BSAS UN, f 
尝试 把 未 见 的 测试 实例 分 类 为 对 应 的 预定 义 的 词义 类 别 之 一 。 

我 们 先 来 看 看 使 用 某 种 形式 的 距离 测度 来 标识 词义 的 算法 。Rada 等 人 [53] 介绍 了 
一 种 计算 WordNet 中 一 对 词义 间 最 短 距 离 的 度量 。 此 度量 假设 多 个 同 现 词 很 可 能 会 展现 出 
使 其 在 语义 网 络 层次 关系 (如 WordNet 中 的 ISA 关系 ) 中 距离 最 小 化 的 词义 。Resnik [54] 
提出 了 一 种 新 的 语义 相似 性 测度 ， 即 IS-A 义 类 层级 的 信息 内 容 Cinformation content), 
并 获得 了 比 简单 边 计数 测度 好 得 多 的 结果 。Agirre 和 Rigau 的 工作 [55] 进一步 完善 了 该 
测度 并 提出 了 概念 密度 (conceptual density) 指标 ， 它 不 仅 依赖 于 边 数 ， 对 层次 结构 的 深 
度 和 概念 的 密度 也 很 敏感 ， 并 且 与 被 测量 的 概念 个 数 无 关 。 图 4-4 中 的 每 个 子 层 都 定义 了 

112] 概念 密度 。 落 在 具有 最 高 概念 密度 的 子 层 中 的 词义 会 被 选 为 正确 的 词义 。 


m-—1 
2, hyponyms/ ^ | 
CD (c.m) = = (4. 3) 


Toia. 

在 图 4-4 中 ， 词义 2 具有 最 大 的 概念 密度 ， 因 此 将 被 选 为 目标 词 的 词义 。 

Resnik [56] 观察 到 选择 性 限制 和 词义 有 密切 的 关系 ， 并 确定 了 一 种 基于 谓词 - 论 元 
统计 的 词义 计算 指标 。 请 注意 ,该 算法 主要 用 于 对 用 作 动 词 谓词 - 论 元 的 名 词 进行 消 上 收 。 

令 AR 为 与 谓词 p 就 论 元 R MA pec 的 选择 性 关联 。AR 按 如 下 定义 : 
Pc ] 2) 
SR z Pc) 

如 果 n 是 谓词 p 论 元 关系 尺 PHARE, (51, so. o> sed 是 其 可 能 的 词义 ， 则 对 i 
从 1~k, 计算 : 


Ar (psc) 三 Plc | p)log 


clc s; 的 祖先 } (4. 4) 
a= TAR d ING 


Hp, ai il X s; 的 分 值 。 拥 有 最 大 ai 值 的 词义 5 会 被 选 为 该 词 的 词义 。 若 有 多 个 则 随 
机 选择 一 个 
dut Miller 和 Chodorow 的 工作 [58] 提供 了 另 一 种 使 用 语料库 统计 信息 和 
WordNet 关系 的 算法 ， 该 工作 表明 ， 单 义 关 系 可 用 于 消除 词 歧义 。 
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W 
被 消 歧 的 词 : W 
内 容 词 : wl w2 w3 w4 
图 4-4 ”概念 密度 


4. 跨 语言 证 据 驱 使 的 算法 

有 男 一 大 类 基于 跨 语言 信息 或 证 据 的 无 监督 算法 。Brown 等 人 [47] 可 能 是 第 一 个 在 
词义 消 此 中 使 用 这 些 信 息 的 工作 。 他 们 不 仅 对 限于 单 语 字典 资源 的 词义 区 别 感 兴趣 ， 也 对 
由 于 跨 语 言 翻译 而 市 来 的 词义 差别 有 特别 的 兴趣 。 他 们 提供 了 一 种 利用 给 定 词 的 上 下 文 信 
息 以 找 出 其 最 可 能 的 目标 语言 翻译 的 方法 。Dagan 和 Itai [59] 对 这 一 想法 进行 了 进一步 
的 探讨 ， 使 用 双语 词典 配合 单 语 语料库 来 自动 获取 词义 的 统计 信息 。 他 们 还 提出 ， 句 法 关 
系 和 词 同 现 统计 信息 都 是 词汇 卜 义 消解 很 好 的 知识 源 。Diab [60] 做 了 进一步 实验 ， 使 用 
英语 到 阿拉 伯 语 的 机 器 翻译 结果 来 抽取 用 于 训练 有 监督 分 类 器 的 词义 信息 。 这 些 实验 和 其 
他 纯 的 无 监督 方法 相 比 毫 不 逊色 。 图 4-5 描述 了 SALAAM 算法 ， 该 算法 需要 用 到 词 对 齐 
的 平行 语 料 。 


1. L1 语言 中 翻译 到 L2 语言 后 为 同一 个 词 的 那些 词 将 被 划分 为 一 个 簇 。 
2. SALAAM (Sense Assignment Leveraging Alignment and Multilinguality， 利 用 对 齐 和 多 语言 的 词义 
分 配 ) (RPE p iF ie] WE WordNet 中 的 接近 度 为 簇 中 单词 标识 适当 的 词义 。 其 中 ， 词 义 接近 度 的 


计算 基于 Resnik[57] 提出 的 信息 论 方法 。 

3. 使 用 一 个 词义 选择 指标 来 为 簇 中 的 每 个 词 选 择 一 个 或 一 组 合适 的 词义 标签 。 

. 簇 中 单词 所 选 定 的 词义 标签 将 被 回 传 到 它们 各 自在 平行 文本 的 上 下 文中 。 同 时 ，SALAAM 还 将 回 
传 的 词义 标签 从 L1 语言 的 词 透 射 到 其 L2 语言 中 的 对 应 翻译 上 。 





图 4-5 创建 使 用 平行 的 英语 到 阿拉 伯 语 机 器 翻译 进行 训练 的 SALAAM 算法 


5. 半 监 督 的 方法 

下 面 我 们 将 探讨 的 算法 是 从 一 个 小 的 种 子 实例 集 开 始 并 采用 迭代 的 方式 使 用 分 类 器 来 
识别 更 多 的 训练 实例 。 这 种 额外 的 自动 标注 数据 可 以 进一步 被 用 于 扩充 分 类 器 的 训练 数 
据 ， 以 在 下 一 个 选择 周期 中 获得 更 好 的 预测 。Yarowsky 算法 [61] 是 这 类 算法 的 经 典 案 
例 ， 它 开创 性 地 在 词义 消 歧 问题 中 引入 了 半 监 督 方 法 。 该 算法 所 基于 的 假设 是 语料库 所 表 
现 出 的 两 个 有 力 的 特性 : 

D 每 个 搭配 一 个 词义 (one sense per collocation): 句法 关系 和 给 定 词 周边 所 出 现 词 
语 的 类 型 往往 会 对 该 词 确 定 某 词义 提供 强 有 力 的 标识 。 

2) 每 个 语 篇 一 个 词义 (one sense per discourse): 通常 情况 下 ， 在 一 个 给 定 的 语 篇 
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中 ， 同 一 个 词 的 所 有 实例 往往 会 唤醒 同一 个 词义 。 

基于 存在 这 些 属性 的 假设 ，Yarowsky 算法 可 迭代 地 为 给 定语 篇 中 的 多 数 词 进行 消 歧 。 

图 4-6 显示 了 该 算法 的 三 个 阶段 。 在 第 一 个 框 中 ，Life 和 manufacturing 用 作 识 别 
plant 两 个 词义 的 搭配 。 然 后 ， 在 下 一 次 迭代 中 ， 确 定 了 一 个 新 的 搭配 词 cell/， 而 最 后 一 块 
则 显示 了 算法 最 终 遗 留 下 来 的 未 消 歧 词 的 小 集合 。 该 算法 (如 图 4-7 所 描述 ) ， 已 被 证 明 
在 少量 的 例子 中 表现 良好 。 为 使 该 算法 能 获得 成 功 ， 重 要 的 是 要 选择 一 个 确定 种 子 实 例 的 
好 方法 并 设计 出 一 种 能 确定 会 潜在 破坏 标记 池 的 错误 实例 的 方法 。 最 近 ，Galley 和 McKe- 
own [62] 研究 表明 ， 每 个 语 篇 词义 的 假设 可 提高 词义 消 歧 的 性 能 。 





4-6 Yarowsky 算法 的 3 个 阶段 


第 12b: 在 一 个 足够 大 的 语料库 中 识别 出 给 定 的 待 消 歧 多 义 词 的 所 有 实例 ， 将 其 上 下 文 一 起 存储 下 来 。 

第 2 步 : 确定 能 有 力 代 表 该 词 某 词义 的 一 个 小 实例 集 。 这 一 步 可 以 依据 所 考虑 词 词义 使 用 的 有 力 标 
识 、 采 用 完全 无 监督 的 方式 进行 措 配 识别 而 完成 ， 也 可 以 手动 标注 一 小 部 分 数据 。 本 例 中 ， 我 们 假设 
一 个 多 义 词 只 有 两 个 词义 ,但 此 算法 可 以 扩展 到 处 理 个 词义 。 

第 3 步 : 

第 3a 步 : 在 此 例子 集 上 训练 一 个 有 监督 的 分 类 器 。 

第 3b 步 : 使 用 这 些 分 类 器 为 语料库 中 词 的 余下 实例 进行 分 类 并 选择 分 类 置信 和 度 大 于 一 定 程 度 的 实例 。 


第 3c 步 : 使 用 “每 个 语 篇 一 个 词义 ”的 限制 过 滤 掉 可 能 错误 分 类 的 实例 ， 并 识别 出 新 的 搭配 以 加 
和 人 种 子 搭配 表 中 。 

第 34 步 : 不 断 重 复 第 3 步 ， 逐 步 减少 未 分 类 实例 。 

第 4 步 ; 停止 。 有 时 还 会 遗留 一 个 小 的 、 稳 定 的 未 分 类 实例 集 。 

第 5 步 : 训练 好 的 分 类 器 现在 可 以 用 于 分 类 新 数据 ， 并 且 反 过 来 也 可 以 用 于 对 原始 语 料 标 注 词 义 和 
概率 。 





图 4-7 Yarowsky 算法 


半 监 督 系统 的 另 一 种 变 体 是 使 用 无 监督 方法 来 创建 数据 并 结合 有 监督 方法 从 数据 中 学 
习 模 型 。 其 假设 是 该 过 程 中 从 语 料 里 所 选 的 错误 实例 的 潜在 噪声 足够 低 而 不 至 影响 学 习 的 
性 能 。 另 一 个 假设 是 ， 模 型 的 整体 甄别 能 力 优 于 纯 无 监督 方法 或 没有 是 够 的 手工 标注 数据 
而 训练 出 来 的 纯 有 监督 系统 。Mihalcea 和 Moldovan [63] 描述 了 一 个 这 样 的 系统 ， 其 中 
使 用 图 4-8 的 算法 来 从 大 规模 语 料 中 获取 特定 WordNet 词义 的 实例 。 
Mihalcea [64] 提出 了 如 下 方法 ， 将 维基 百科 用 于 自动 词义 消 玻 。 
。 提取 (extract) 维基 百科 中 包含 待 消 歧 词 且 该 词 为 链接 的 所 有 句子。 有 两 种 类 型 
的 链接 : 简单 链接 ， 如 [Lbar]]， 或 管道 链接 ， 如 [Lmusical_notation | bar ]]. 
。 过 滤 (filter) 指向 消 歧 页 面 的 链接 。 这 意味 着 我 们 需要 进一步 的 信息 对 该 词 进行 
消 歧 。 如 果 该 词 并 不 指向 消 歧 页 面 ， 那么 这 个 词 本 身 就 可 以 是 标签 。 对 于 所 有 管 
道 链接 ， 管 道 前 的 字符 串 可 以 用 作 标 签 。 
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1A MAH 

。 对 于 词 W 的 每 个 词义 ， 确 定 包 含 它 的 WordNet 所 有 同义词 集 。 对 于 每 个 同义词 集 ， 找 出 其 中 的 单 义 
词 。 对 每 个 同义词 集 所 附 的 注释 定义 进行 分 析 。 

第 2 步 ”搜索 

。 使 用 如 下 按 优先 次 序 的 过 程 来 构造 查询 短语 : 

1) 抽取 第 1 步 中 选 定 的 同义词 集中 的 单 义 同义词 〈 如 果 有 的 话 )。 

2) 将 注释 中 无 歧义 的 分 析 成 分 选择 为 搜索 短语 。 

3) 在 分 析 完 该 注释 后 ， 将 所 有 停 用 词 蔡 换 为 NEAR 运算 符 并 为 当前 同义词 集中 的 词 创建 一 个 查询 。 例 
i, produce# 6 的 同义词 集 为 grow, raise, farm, produce, Witt PEE cultivate by growing, ， 则 所 
生成 的 查询 看 起 来 应 该 像 : cultivate NEAR growing AND (grow OR: raise OR farm OR produce) , 

4) 仅 使 用 在 同一 词 集中 采用 AND 运算 符合 并 的 词语 的 中 心 短 语 。 例如， 如 果 company 5 的 定义 
为 band of people, M E X REE (party, company)， 则 相应 的 查询 将 是 : band of people 
AND (party OR company). 

。 使 用 上 一 步 所 确定 的 短语 在 网 络 上 搜索 并 收集 匹配 的 文档 。 

。 从 这 些 文档 中 抽取 包含 这 些 单词 的 句子 。 

第 3 步 ， 后 处 理 

。 只 保留 那些 所 考虑 词 词性 与 目标 词义 相同 的 句子 ， 而 删除 其 他 句子 。 

图 4-8 Mihalcea 和 Moldovan [63] 用 于 通过 查询 超大 规模 语 料 生 成 标记 为 某 特 定 词 义 的 词语 实 
例 的 算法 


。 收集 (collect) 所 有 与 该 词 相关 的 标签 ， 然 后 将 它们 映射 到 可 能 的 WordNet 的 词 
义 上 。 它 们 有 时 可 能 都 被 映射 到 相同 的 词义 上 ， 本 质 上 导致 动词 变 成 单 义 ， 而 无 
用 〈 就 此 目的 而 言 ) 。 这 些 类 别 经 常 可 以 被 映射 到 大 量 的 WordNet 类 别 中 ， 从 而 
提供 词义 消 歧 后 的 数据 用 于 训练 。 此 手工 映射 是 一 个 相对 廉价 的 过 程 。 
此 算法 提供 了 一 种 可 抽取 许多 词 词义 信息 的 廉价 方式 ， 这 些 词 显 示 了 所 知 的 属性 。 它 
可 以 减轻 手动 密集 型 的 词义 标注 过 程 。 如 果 整 个 维基 百科 中 展现 出 该 属性 的 单词 不 少 ， 则 
它 就 是 一 种 用 于 产生 词义 标记 数据 非常 有 用 的 方法 。 这 种 方法 的 覆盖 面 有 多 大 呢 ? 我 们 大 
致 可 以 从 如 下 事实 中 得 到 一 些 粗 略 的 印象 : SENSEVAL-2 和 SENSEVAL-3 所 用 到 的 49 个 名 
词 中 大 约 有 30 个 在 从 维基 百科 中 抽取 到 的 数据 中 能 找到 超过 两 个 词义 。 这 些 词义 的 平均 消 
歧 准 确 率 约 为 85% 上 下 。 而 将 这 些 词义 映射 到 WordNet 的 多 标注 者 一 致 性 大 约 是 91 和 %。 


4.4.3 软件 


针对 词义 消 歧 问 题 研究 者 们 开发 了 不 少 软件 工具 ， 从 相似 度 计 算 模块 到 完整 的 消 歧 系 
统 都 有 。 我 们 不 可 能 将 所 有 的 软件 都 列 出 来 ， 下 面 仅 列 出 了 其 中 的 一 小 部 分 。 

。 IMS (It Makes Sense) http://nlp. comp. nus. edu. sg/software。 这 是 一 个 完整 
的 词义 消 歧 系统 。 

e WordNet-Similarity-2. 05 http;//search. cpan. org/dist/ WordNet-Similarity。 此 工 
具 包 包括 了 一 些 基于 WordNet 的 相似 度 计算 Perl 模块 ， 可 快速 计算 各 种 词语 相 
似 度 。 

。 WikiRelate! http://www. h-its. org/english/research/nlp/download/wiki pedia- 
similarity. php。 此 工具 支持 基于 Wikipedia 分 类 的 词语 相似 度 计算 。 


4.5 谓词 - 论 元 结构 
浅 层 语义 分 析 ， 或 现在 俗称 的 语义 角色 标注 (semantic role labeling) ， 是 识别 出 名 
子 中 谓词 的 各 种 论 元 的 过 程 。 对 于 各 种 谓词 的 论 元 集 究 竟 由 什么 构成 以 及 相应 论 元 标 
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答应 该 是 什么 粒度 等 问题 在 语言 界 已 经 争论 了 几 十 年 ， 这 里 的 谓词 可 以 是 句子 中 的 动 
i]. Bil, BAW AT L65, 66]. 


4.5.1 Rik 


20 世纪 90 年 代 后 期 出 现 了 两 个 重要 的 包含 语义 标注 的 语料库 。 一 个 是 FrameNet? [67, 
68, 69, 70], A—P Mie ProBank? [71]。 这 些 资 源 导致 有 悠久 传统 的 规则 (Rule-Based) 
方法 逐渐 问 面 向 数据 (Data-Oriented) 的 方法 过 渡 。 这 些 方法 更 侧重 于 将 语言 学 知识 转化 
为 特征 而 不 是 规则 ， 并 让 机 器 学 习 框 架 使 用 这 些 特 征 来 学 习 一 个 模型 。 此 模型 则 有 助 于 对 
这 些 资源 中 编码 的 语义 信息 进行 自动 标记 。FrameNet 基于 框架 语义 学 (frame seman- 
tics) 。 其 中 ， 一 个 给 定 谓 词 会 唤醒 语义 框架 (semantic frame)， 进 而 对 属于 该 框架 的 部 分 
或 所 有 可 能 的 语义 角色 进行 实例 化 [72]。 另 一 方面 ，PropBank 则 基于 Dowty [73] 的 原 
型 理论 并 采用 一 种 语言 学 更 中 性 的 观点 。 其 中 ， 每 个 谓词 都 有 一 组 谓词 相关 的 核心 论 元 
集 ， 所 有 谓词 则 分 享 一 组 非 核 心 (或 附加 的 ) 论 元 。 它 建立 在 宾 州 句法 树 库 语 料 基础 上 。 
下 面 我 们 将 更 详细 地 讨论 这 些 资源 。 

1. FrameNet 

FrameNet 包含 许多 英语 谓词 的 面向 框架 的 语义 标注 。 它 也 包含 了 标注 的 句子 ， 这 些 
句子 来 自 英 国 国家 语料库 (British National Corpus, BNC), FrameNet 标注 过 程 包括 识别 
出 特定 语义 框架 并 创建 一 组 称 为 框架 元 素 (frame element) 的 框架 专用 角色 。 然 后 ， 确 定 
一 组 实例 化 该 语义 框架 的 谓词 〈 无 论 其 语法 范畴 是 什么 ) 以 及 标记 了 这 些 谓词 的 句子 集 。 
标记 过 程 如 下 : 首先 ， 确定 由 该 谓词 原形 实例 所 唤醒 的 框架 ， 然 后 识别 出 该 实例 中 的 各 语义 
论 元 ， 并 将 它们 分 别 标 记 为 该 框架 预定 义 的 各 框架 元 素 之 一 。 谓 词 原形 与 其 所 唤醒 框架 的 组 
合 称 为 词汇 单元 (Lexical Unit，LU) ， 也 就 是 词 和 其 意义 的 组 合 。 多 义 词 的 每 个 词义 都 倾向 
于 与 某 个 独特 的 框架 相关 联 。 例 如 ， 动 词 break 可 以 表示 “不 遵守 (法 律 、 规 则 或 协议 )” 的 
意思 并 与 violation、obey、fliout 等 词 一 同属 于 COMPLIANCE 框架 ; 也 可 以 表示 “以 破坏 性 
的 方式 导致 突然 分 裂 成 碎片 ”的 意思 ， 并 与 fracture, fragment, smash 等 词 一 同属 于 
CAUSE TO FRAGMENT 框架 。 | | 

下 面 的 例子 说 明了 其 总 体 思路 。 此 
Ab, E AWARENESS 被 实例 化 为 动词 Cognizer Manner | 
谓词 believe 和 和 名词 谓词 comprehension 。 Tt 
图 4-9 显示 了 AWARENESS 框架 和 其 框 | pee。 Price on 
架 元 素 以 及 可 唤醒 它 的 谓词 实例 集 ， 涉 
及 动词 和 名 词 化 词 。 图 4-9 FrameNet 实例 

DD. [gnize We] [Predicate:wrs believe] [content it is a fair and generous price | 

2) No doubts existed as to [cgnizer dhr] [Predicate ow. comprehension | [ coment Of it] 

FrameNet 囊括 了 多 种 名 词性 谓词 ， 包 括 超 名 词 Cultra-nominals) [74, 73]. Mia 
及 名 词 化 词 (nominalization) 。 同 时 它 也 包含 了 一 些 形容 词 和 介词 谓词 。 

截至 本 文 撰写 时 ， 最 新 发 布 的 FrameNet R1. 5 包含 大 约 173 000 个 谓词 实例 ， 和 覆盖 
BNC 之 上 大 约 1000 个 框架 的 约 8000 个 框架 元 素 。 哩 然 框 架 元 素 的 数量 看 起 来 非常 大 ， 但 
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其 中 很 多 在 11 000 个 词汇 单元 间 还 是 共享 相同 的 含义 。 例 如 ， 框 架 CURE 的 框架 元 素 
BODY PART 和 框架 GESTURE zz WEARING 的 相同 元 素 就 具有 相同 的 含义 。 

2. PropBank 

PropBank 只 包含 对 动词 谓语 的 论 元 的 标注 。 宾 州 树 库 [75] 华尔街 日 报 部 分 中 的 所 
有 非 系 动 词 都 标记 了 其 语义 论 元 。PropBank 将 论 元 边界 限制 于 句法 成 分 ， 句 法 成 分 由 宾 
州 树 库 定义 。 它 使 用 了 一 种 语言 学 中 性 的 术语 来 标记 各 论 元 。 论 元 可 能 被 标记 为 核心 论 元 
(core argument)， 其 标签 类 型 为 ARGN CON 取 值 为 0~~5); 也 可 能 被 标记 为 如 表 4-2 所 示 
的 附加 论 元 (adjunctive argument)， 其 标签 类 型 为 ARGM-X (X 可 能 取 值 为 表示 时 间 的 
TMP、 表 示 方 位 的 LOC 等 )。 附 加 论 元 对 所 有 谓词 而 言 意义 是 相同 的 ， 而 在 核心 论 元 的 
含义 则 依 有 具体 谓词 的 不 同 而 不 同 。ARG0 指 PROTO-AGENT (通常 是 及 物 动词 的 主语 )， 
ARG1 是 PROTO-PATIENT (通常 是 及 物 动 词 的 直接 宾语 ) [73]. € 4-1 显示 了 谓词 op- 
erate 和 author 的 核心 论 元 表 。 注 意 ，author 并 不 包含 诸如 ARG2 和 ARG3 等 的 核心 论 元 。 这 
也 说 明了 并 不 是 所 有 核心 论 元 都 能 被 所 有 谓词 的 所 有 词义 实例 化 。 谓 词 某 词 义 拥 有 的 核心 论 
元 表 以 及 它们 的 实际 意义 被 放 在 一 个 名 为 框架 文件 (frames file) 的 文件 中 。 框 架 文件 会 与 各 
自 的 谓词 相互 关联 。 


表 4-1 PropBank 语 料 中 与 谓词 operate. 01( 词 义 : 操作 ) 和 
author. 01( 词 义 : 写作 或 创造 ) 相关 的 论 元 标签 


谓 词 论 wt fii. Xt 
operate. 01 ARGO 施 事 ， 操 作者 
ARGI 所 操作 的 事物 
ARG2 显 式 的 经 历 者 (操作 的 施加 对 象 ) 
ARG3 显 式 的 论 元 
' ARG4 显 式 的 工具 
author. 01 ARGO VER. te 
ARGI 创作 的 文本 


表 4-2 PropBank 中 的 附加 论 元 列表 


标 签 描 xh 例 T 
ARGM-LOC 地 点 the museum, in Westborough. Mass 
ARGM-TMP 时 间 now, by next summer 
ARGM-MNR 方法 heavily, clearly, at a rapid rate 
ARGM-DIR Ti In] to market , to Bangkok 
ARGM-CAU 原因 In response to the ruling 
ARGM-DIS 语 篇 连接 for example , in part, Similarly 
ARGM-EXT 程度 at $ 38. 375, 50 points 
ARGM-PRP 目标 to bay for the plant 
ARGM-NEG 否定 not, n't 
ARGM-MOD 情态 can. might, should, will 
ARGM-REC 相互 each other 
ARGM-PRD 第 二 谓词 to become a teacher 
ARGM 空 论 无 with a police escort 
ARGM-ADV 副词 除了 上 述 情况 以 外 的 情况 


图 4-10 显示 了 一 个 从 PropBank 语 料 中 抽取 的 实例 ， 同 时 也 显示 了 其 相应 的 句法 树 表 
示 和 论 元 标签 。 
大 多 数 Treebank 类 型 的 树 都 有 人 迹 节 点 (trace node) ， 用 于 指向 树 中 的 另 一 个 节点 ， 


119 


121 


ji ne NE 
PRP VBZ NP [Null] 
| | 
It Operates NP PP 
ARGO predicate | 
NNS Mostly in lowa and Nebraska 


| ARGM-LOC 


ARGI 
[ARco It] [predicate Operates] [arci stores] [Ancw-Loc mostly in Iowa and Nebraska]. 


图 4-10 用 于 解释 PropBank 标签 的 一 个 句子 的 句法 树 


但 并 不 与 单词 关联 。 这 些 节 点 也 可 以 标记 为 论 元 。 由 于 通常 的 语法 分 析 器 不 会 再 生成 这 种 
迹 节 点 ， 因 此 研究 者 们 的 大 多 数 标 准 实 验 常 常 无 视 它们 。PropBank 还 包含 共 指 论 元 。 如 
同 其 他 集成 了 多 层 标注 的 策略 一 样 ，Treebank 标注 和 PropBank 标注 之 间 也 存在 一 些 分 
Ei. Hf PropBank 使 用 者 (PropBanker) 坚信 在 树 结构 中 存在 着 错误 或 该 树 未 满足 论 元 
和 树 节点 之 间 映 射 的 一 一 对 应 性 。 这 时 ， 他 们 会 把 树 中 的 一 系列 节点 标注 为 一 个 论 元 ， 并 
把 它们 称 为 非 连 续 论 元 (discontiguous argument)。 这 种 情况 极 少 (为 126—295), Prop- 
Bank 的 WSJ 部 分 大 约 包 含 250 000 个 例句 ， 有 115 000 个 对 5 000 个 框架 进行 实例 化 的 谓 
词 实例 ， 涉 及 大 约 20 个 论 元 类 型 。 还 有 18 000 个 其 他 谓词 用 Brown 语 料 的 论 元 标注 。 最 近 
的 OntoNotes MH [ 22, 23, 24] 采用 PropBank 标注 指南 为 更 大 的 各 体裁 语料库 标注 了 谓词 - 
论 元 结构 。 这 导致 了 Penn Treebank 和 PropBank 指南 做 出 更 改 以 便 产 生 更 好 、 更 一 致 的 资源 
[76]。 在 本 章 讨论 的 多 数 实验 都 使 用 PropBank v1. 0 的 WS] 部 分 标注 。 

FrameNet 和 PropBank 语 料 之 间 的 一 个 值得 注意 的 重要 区 别 是 ，FrameNet 中 包含 词 
汇 单元 ， 即 表明 其 意义 或 所 唤醒 框架 的 词 ， 而 PropBank 的 每 个 原形 词 则 有 一 个 不 同 的 框 
架 集 (frameset) 表 ， 代 表 所 有 具有 不 同 论 元 结构 的 所 有 词义 。 这 些 与 词义 类 似 但 往往 是 
粗 粒 度 的 [77]. 

3. 其 他 资源 

为 了 进一步 对 谓词 - 论 元 识别 研究 ， 研 究 者 们 也 开发 了 其 他 资源 。NomBank [78] 的 
灵感 也 来 自 于 PropBank。 在 识别 和 标注 名 词 论 元 的 过 程 中 ，NOMLEX (名 词 化 词典 ， 
NOMinalization LEXicon) [79] 词典 被 逐步 扩展 到 覆盖 了 约 6000 个 条 目 。 同 时 ,来 自 于 
PropBank 的 框架 也 被 用 于 产生 NomBank 的 框架 文件 。 另 一 种 将 PropBank 框架 与 更 多 谓 
词 无 关 的 专题 角色 联系 起 来 、 也 同样 提供 丰富 表示 的 资源 是 VerbNet [81」j， 该 表示 将 框 
Anf: 15 Levin 类 集 [80] 相关 联 。 事 实 上 ，PropBank 框架 和 Levin 动词 类 ， 特 别 是 与 交集 
型 Levin 类 [82]， 有 非常 强 的 联系 。FrameNet 生成 的 动词 类 更 多 的 是 数据 驱动 的 (而 非 
基于 理论 )， 从 这 个 意义 上 说 ，FrameNet 与 Levin 类 也 有 关系 。Baker Al Ruppenhofer 
[83] 提出 了 一 个 关于 FrameNet 框架 与 Levin 类 是 如 何 相关 的 有 趣 讨 论 。 

虽然 FrameNet 和 PropBank 都 源 于 对 英语 进行 谓词 - 论 元 结构 标注 ， 但 很 快 其 理念 
就 传播 到 其 他 语言 了 。 由 于 FrameNet 基于 粗 粒 语义 框架 的 框架 语义 学 ， 其 语义 本 质 是 语 
言 无 关 的 ， 因 此 ， 这 些 框架 很 显然 可 以 在 标注 其 他 语言 数据 时 重用 。SALSAL84, 85] 是 
第 一 个 付 诸 实行 的 项 目 。FrameNet 同时 标记 文本 的 字面 意义 和 隐喻 解释 ， 但 这 可 能 导致 
歧义 和 较 低 的 一 致 性 ， 因 此 SALSA 项 目 更 多 只 采用 字面 意义 。 该 项 目 尽 可 能 重用 了 现存 
的 FrameNet 框架 ， 对 于 由 于 语言 语义 差异 而 导致 无 法 一 致 的 情况 则 创建 了 更 多 的 新 框 
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架 。 截 至 本 文 写作 时 已 存在 日 语 [86，87j]、 西 班 牙 语 [88] 以 及 瑞典 语 [89] 的 
FrameNet， 还 有 超过 10 种 语言 90] 的 FrameNet 项 目 正在 进行 。 

PropBank 也 促使 双语 [91]、 阿 拉 伯 语 [92,，93]、 韩 语 [94]、 西 班 牙 语 、 加 泰 罗 尼 
Wit L95」 以 及 最 近 的 印 地 语 L96] 等 语言 的 同类 资源 被 创建 出 来 。 许 多 工作 涉及 相同 的 
核心 研究 人 员 。 和 FrameNet 不 同 ， 每 一 个 新 的 PropBank 都 要 求 建立 一 套 新 的 框架 文件 。 

虽然 FrameNet 和 PropBank 的 设计 哲学 都 启发 了 其 他 语言 的 类 似 项 目 ， 但 这 也 不 是 
实践 中 的 唯一 模式 。 例 如 ， 布 拉 格 依存 树 库 (Prague Dependency Treebank) [97] 就 采用 
了 不 辐 的 方法 一 一 在 依存 结构 顶层 的 语法 构造 层 中 标记 谓词 - 论 元 结构 。 其 核心 论 元 称 为 
内 部 成 员 (inner participant)， 而 附属 论 元 则 称 为 自由 修饰 成 分 (free modification) 。 
NAIST 文本 语料库 (NAIST Text Corpus) [98」 则 受 日 本 语言 学 传统 的 强烈 影响 。 


4.5.2 系统 

和 词义 消 歧 不 同 ， 从 未 标注 的 语 料 中 学 习 谓 词 - 论 元 结构 的 研究 很 少 ， 这 也 许 是 因为 
它 和 实际 应 用 更 接近 ， 并 且 已 经 或 多 或 少 地 被 吸收 在 信息 抽取 领域 中 。 大 多 数 早期 的 系 
统 ， 如 KL-ONE [L99」 和 其 他 系统 [100，101]， 主 要 是 基于 启发 式 语法 树 ， 这 些 是 基于 
规则 的 系统 生成 的 ， 直 到 有 了 宾 州 树 库 可 作为 监督 的 语法 分 析 的 训练 资源 。 这 些 系统 大 部 
分 处 理 一 些 与 谓词 无 关 的 主题 角色 。 已 经 有 很 多 涉及 论 元 结构 概念 的 语言 学 研究 ， 但 大 部 
分 并 不 直接 适用 于 领域 无 关 的 理解 系统 。 在 语料库 出 现 之 前 ， 主 要 的 资源 是 基于 语法 分 析 
树 的 规则 。 其 中 一 个 很 有 用 的 资源 在 PropBank 早期 文本 中 由 Levin 提出 可 以 用 于 动词 分 
类 [80] 及 其 转换 。Absity +a [102, 13] 是 最 早 的 基于 规则 的 语义 分 析 器 。- 另 外 值 
得 注意 的 是 应 用 到 PUNDIT 理解 系统 的 分 析 器 [L103，104]。 后 来 很 多 工作 使 用 混合 方法 
把 WordNet 作为 一 种 解释 专门 领域 的 资源 [107」 对 主题 角色 进行 标注 [105. 106]. X 
他 值得 注意 的 工作 是 Manning, Briscoe 和 Carroll [109] 基于 语料库 的 研究 ， 追 求 从 大 语 
料 库 中 导出 次 范畴 的 信息 ，Pustejovsky [110] 试图 从 语料库 中 获取 词汇 语义 知识 。 

语义 角色 标注 研究 的 一 大 飞跃 发 生 在 引入 FrameNet 和 PropBank 后 。FrameNet 和 
PropBank 的 一 大 作用 是 ， 创 建 框架 时 , 可 在 人 工 标 注 的 框架 集 上 进行 动词 分 类 。 在 一 种 
或 更 多 的 语言 中 覆盖 所 有 可 能 的 动词 需要 很 多 的 人 力 物 力 。Green Dorr 和 Resnik [111] 
提出 了 自动 学 习 框 架 结构 的 一 种 方法 ， 但 结果 不 够 准确 ， 不 足以 取代 人 工 框 架 创 建 。 在 最 
新 的 方法 中 ，Swier 和 Stevenson [112] 用 一 种 无 监督 的 方式 来 处 理 这 个 问题 。 

现在 ， 让 我 们 回顾 这 些 语 料 出 现 以 来 的 一 些 最 新 方法 。 语 义 角色 标注 的 处 理 过 程 可 以 
定义 为 识别 出 一 个 词 序列 的 集合 ， 其 中 每 一 个 序列 代表 给 定 谓词 的 一 个 语义 论 元 。 例 如 ， 
图 4-10 中 的 句子 ， 谓词 operates， 单 词 工 充当 角色 ARGO. 单词 stores 充当 角色 ARGI, 
词 序列 mostly in Iowa and Nebraska 充当 ARCM-LOC。 因 为 PropBank 不 承认 谓词 之 间 
的 共性 ， 一 个 谓词 的 ARGN 不 必 与 另 一 个 谓词 的 ARGN 有 类 似 的 语义 .9 

FrameNet 是 第 一 个 手工 标注 谓词 - 论 元 的 项 目 。Gildea 和 Jurafsky [113] 第 一 个 把 
语义 角色 标注 当成 有 监督 的 分 类 问题 ， 谓 词 的 论 元 和 谓词 本 身 可 以 被 映射 到 该 句 的 语法 树 
中 的 节点 。 他 们 介绍 了 三 个 任务 ， 可 以 用 来 对 系统 进行 评估 ， 并 已 成 为 标准 。 : 

论 元 识别 识别 一 个 谓词 的 所 有 语义 成 分 ， 这 代表 谓词 所 有 有 效 的 语义 论 元 。 





©  PropBank 项 目 当 然 也 不 是 任意 地 赋予 论 元 角色 数字 。 例 如， 实际 上 ARGO 倾向 于 担任 Agent 角色 ， 而 ARGI 
倾向 于 担任 Patient 角色 (借用 06 角色 的 术语 )。 
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论 元 分 类 一 一 对 于 一 个 给 定 谓 词 的 语义 成 分 ， 为 它们 标注 适当 的 标签 。 

论 元 识别 和 分 类 一 一 前 两 个 任务 的 结合 ， 确 定 一 个 谓词 的 所 有 论 元 ， 并 给 它们 标注 适 
当 的 论 元 标签 。 

一 且 一 句 话 已 进行 句法 分 析 ， 则 分 析 树 中 的 每 个 节点 可 以 被 归 类 为 某 一 个 语义 论 元 
( 即 非 空 节点 )， 或 不 代表 任何 语义 论 元 〈 即 空 节 点 )， 非 空 节 点 可 以 进一步 标注 相应 的 论 
元 标签 。 

例如 ， 在 图 4-10 中 ， 名 词 短 语 stores mostly in Iowa and Nebraska 是 一 个 空 节 点 ， 因 为 它 不 
对 应 一 个 语义 论 元 。 由 节点 NP 包围 的 stores 是 一 个 非 空 节点 ， 因 为 它 对 应 语义 论 元 ARGI, 

一 个 通用 的 语义 角色 标注 算法 的 伪 代 码 (Semantic Role Labeling, SRL) 如 算法 4-3 所 示 。 

1. 句法 表示 

正如 我 们 所 看 到 的 ，PropBank 是 在 宾 州 树 库 风格 的 短语 结构 树 顶 层 上 的 一 层 注 释 。 
在 一 个 早期 的 恢复 PropBank 注释 的 工作 中 ，Gildea 和 Jurafsky [113] 把 一 些 论 元 的 标签 
添加 到 句法 树 ， 这 些 树 由 宾 州 树 库 训练 得 到 的 分 析 器 产生 。 在 随后 的 几 年 中 ， 研 究 人 员 直 
接 使 用 各 种 其 他 类 型 的 句子 表示 形式 ， 或 作为 一 种 独立 的 数据 源 来 解决 语义 角色 标注 问 
题 。 下 面 我 们 看 一 下 这 些 句 子 表示 形式 以 及 用 PropBank 论 元 来 标记 文本 的 一 些 特征 。 


算法 4-3 语义 角色 标注 算法 
Procedure: SRL(sentence) returns 最 佳 语 义 角色 标注 


输入 : sentence 

1: 生成 sentence 完整 的 句法 分 析 树 

2: 识别 所 有 的 predicate 

3: for all predicate € sentence do 

4: ”从 predicate 子 树 上 的 每 个 节点 抽取 一 组 特征 
5: “对 每 个 特征 向 量 使 用 训练 的 分 类 器 进行 分 类 
6: “选择 具有 最 高 得 分 的 分 类 类 别 

7: return 语义 角色 标注 

8: end for 

短语 结构 语法 (Phrase Structure Grammar, PSG) . FrameNet 标记 句 中 的 词 序列 表 
示 论 元 ， 而 PropBank 将 树 中 的 节点 标注 为 论 元 。 因 为 一 些 高 质量 的 统计 分 析 器 可 以 产生 
短语 结构 树 ， 而 且 短 语 结构 表示 易于 标注 ， 所 以 Gildea 和 Jurafsky [113] 使 用 短语 结构 
来 标注 。 他 们 介绍 以 下 的 几 个 特征 ， 其 中 一 些 是 从 甸子 的 分 析 树 中 抽取 的 。 

路 径 一 一 这 个 特征 是 在 句法 分 析 树 中 从 句法 成 分 到 正在 分 类 的 谓词 的 语法 路 径 。 例 如 ， 
在 图 4-10 F, M ARGO 到 谓词 的 路 径 表 示 为 NP+4SyVPyVBZ。 人 和 y 分别 代 表 在 树 上 
向 上 和 问 下 移动 。 

谓词 一 一 谓词 原形 被 当成 一 个 特征 。 

短语 类 型 标注 成 分 的 句法 范畴 CNP. PP, S 等 )。 

位 置 一 一 这 是 一 个 二 元 特征 ， 表 示 短 语 成 分 在 谓词 前 面 或 后 面 。 

语 态 一 一 该 特征 表示 谓词 是 主动 或 被 动 形式 。 用 一 套 手写 的 tgrep29 表达 式 来 在 句法 
树 中 标识 被 动 语 态 的 谓词 ， | 

中 心 词 一 一 短语 树 的 中 心 词 。 它 可 以 用 Mageman [114] fÉ XB Collins [115] 修改 
的 中 心 词 来 计算 。 
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次 范畴 一 一 这 个 特征 是 短语 树 中 谓词 父 节 点 短语 结构 规则 的 扩展 。 例 如 在 图 4-10 rp, 
谓词 的 次 范畴 信息 为 VP—VBZ—>NP, 

动词 聚 类 谓词 是 预测 论 元 类 中 最 显著 的 特征 之 一 。 给 定 谓词 可 能 出 现 的 各 种 句法 
或 语义 结构 ,任意 数量 的 手工 标注 的 训练 数据 对 于 模型 参数 估计 的 作用 将 相对 有 限 ， 任何 
实际 应 用 的 测试 集中 可 能 将 包含 一 些 在 训练 中 从 没 见 过 的 谓词 的 意思 或 框架 。 在 这 种 情况 
下 ， 研 究 人 员 发 现 用 这 样 的 特征 创建 类 别 可 以 从 关于 谓词 的 一 些 信息 受益 。Gildea 和 Ju- 
rafsky [L113] 用 一 个 距离 函数 作为 聚 类 依据 ， 从 表面 上 看 ， 有 语义 相似 性 的 动词 可 能 成 为 
相同 的 类 别 。 例 如 ， 动词 如 eat, devour, savor 等 倾向 于 直接 描述 食物 。 聚 类 算法 使 用 
Lin [116] 提出 的 述 宾 关 系数 据 表 。 这 些 动 词 可 以 用 Hofmann 和 Puzicha [117] 的 共 现 
概率 模型 被 聚 类 成 64 类 。 

Surdeanu 等 人 [118] 提出 以 下 额外 特征 : 

实 词 一 一 因为 一 些 成 分 的 中 心 词 特征 ， 如 PP 和 SBAR， 信 息 量 不 够 ， 他 们 对 一 些 成 
分 类 型 定义 了 一 组 启发 式 规则 ， 用 来 确定 一 个 所 谓 的 实 词 ， 并 将 其 作为 一 个 附加 的 特征 ， 
而 不 使 用 通常 的 中 心 词 查找 规则 。 他 们 使 用 的 规则 如 图 4-11 所 示 。 

中 心 词 和 实 词 的 词性 一 一 添加 一 些 成 分 的 中 心 词 和 实 词 的 词性 作为 特征 ， 有 助 于 论 元 
识别 ， 可 显著 提升 基于 树 的 系统 的 性 能 。 





Hl; if 短语 类 型 为 PP，then 选择 右 孩 子 
例子 : 短语 二 “in Texas”, i= “Texas” 
: if 短语 类 型 为 SBAR，then 选择 最 左 句 子 (S+) 的 从 名 
fl: 短语 二 “that occurred yesterday”， 实 词 二 “occurred” 
: if 短语 类 型 为 VP ，then 
if 有 VP f£ f. then 
选择 最 左边 的 VP 孩子 
else 
选择 中 心 词 
例子 ; 短语 二 “had placed”， 实 词 =“placed” 
: 让 短语 类 型 为 ADVP，then 选择 最 右 孩 子 ， 不 是 IN 或 者 TO 
例子 : 短语 二 “more than”, S:is-— “more” 
: 证 短语 类 型 为 ADJP，then 选择 最 右边 的 形容 词 、 动 词 、 名 词 或 ADJP 
例子 ; 短语 二 “61 years old", iR = “61” 
: for all 其 他 的 短语 类 型 中 ， 选 择 中 心 词 
例子 短语 二 “red house", X= “red” 


图 4-11 实 词 的 启发 式 列表 
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实 词 的 命名 实体 一 一 一 些 角 色 ， 如 ARGM-TMP 和 ARGM-LOC, 倾向 于 包括 TIME 
或 者 PLACE 的 命名 实体 。 这 些 信息 被 添加 到 二 值 特征 集 。 

布尔 命名 实体 标志 Surdeanu 等 也 提出 增加 一 些 命名 实体 信息 作为 特征 。 他 们 创 
立 了 7 个 命名 实体 类 型 作为 指示 函数 : 人 物 、 地 点 、 时 间 、 日 期 、 货 币 、 百 分 比 、 组 织 。 

动词 短语 搭配 一 一 此 特征 包括 动词 及 紧 随 其 后 的 介词 的 频率 统计 。 

Fleischman, Kwon 和 Hovy [119] 添加 了 以 下 特征 到 他 们 的 系统 : 

逻辑 函数 一 一 这 是 一 个 三 值 (外 部 论 元 、 对 象 论 元 和 其 他 论 元 ) 特征 ， 需 要 使 用 一 些 
启发 式 的 语法 树 计 算 。 

框架 元 素 顺 序 一 一 该 特征 指 在 一 个 句子 中 的 框架 元 素 相 对 于 其 他 框架 元 素 的 位 置 。 

句法 模式 一 一 此 特征 也 由 使 用 基于 短语 类 型 和 成 分 的 逻辑 函数 的 启发 式 产生 。 
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已 知 角色 一 一 这 是 一 组 特征 显示 当前 谓词 由 系统 已 观察 或 分 配 到 的 N 个 角色 。 


| Pradhan 等 [120] 使 用 下 述 的 附加 特征 : 





成 分 中 的 命名 实体 Surdeanu 等 L118」 提出 使 用 成 分 中 的 命名 实体 对 成 分 的 语义 
角色 分 类 有 一 定 的 性 能 提升 。 其 中 一 些 实体 ， 如 位 置 和 时 间 ， 对 附加 论 元 ARGM-LOC 和 
ARGM-TMP 是 特别 重要 的 。 当 中 心 词 不 常用 ， 或 对 一 些 地 点 或 时 间 指 示 词 的 封闭 集合 ， 如 
in Mexico 或 in 2003， 实体 标 记 也 是 有 用 的 。 他 们 采用 IdentiFinder 在 语 料 中 标记 7 种 命名 实 
体 [121]， 并 增加 这 7 个 二 值 特征 。 如 在 成 分 中 出 现 某 个 命名 实体 ， 相 应 的 特征 为 真 。 

动词 词义 信息 一 一 一 个 谓词 携带 的 论 元 依赖 于 谓词 的 词义 。 在 PropBank 语料库 中 标 
注 每 个 谓词 的 论 元 集合 ;依赖 于 它 被 使 用 的 词义 ,这 也 称 为 框架 集 ID (frameset ID), 
K 4-3 说 明 一 个 词 的 论 元 集 。 根 据 谓 词 talk 的 词义 ,无论 是 ARG1 或 者 ARG2 都 可 以 被 
识别 为 hearer。 没 有 这 些 信息 可 能 对 学 习 机 制造 成 混乱 。 

从 PropBank 抽取 出 的 动词 词义 信息 通过 把 谓词 的 每 个 意思 当成 一 个 独立 的 谓词 添加 ， 
这 将 有 助 于 提高 性 能 。PropBank 框架 集 的 消 歧 精确 率 很 高 [122]. 


表 4-3 在 PropBank 语料库 中 与 两 个 句子 的 谓词 talk 相关 的 论 元 标签 


talk. 01 talk. 02 
标 X jd xt 标 X ii 述 
ARGO 谈话 者 ARGO 谈话 者 
ARGI 话题 ARGI 和 谁 谈 
ARG2 听众 ARG2 间接 行动 


介词 短语 的 名 词 中 心 词 一 一 很 多 附加 论 元 ， 如 tempuras 和 locatives， 作 为 句子 中 的 
一 个 介词 短语 。 这 些 短语 的 中 心 词 总 是 介词 ， 往 往 不 是 很 有 区 分 性 。 例 如 ，in the city 和 
in a few minutes 都 拥有 相同 的 中 心 词 in， 两 者 都 不 包括 命名 实体 ， 但 前 者 是 ARGM- 
LOC， 而 后 者 是 ARGM-TMP。 因 此 ，Pradhan 等 [120] 把 介词 短语 的 中 心 词 改 为 介词 短 
语 内 的 第 一 个 名 词 得 语 ， 介 词 信息 被 附加 到 短语 类 型 而 得 以 保留 ， 例 如 ，for about 20 mi- 
nutes 这 个 介词 短语 的 中 心 词 ， 原 来 是 介词 for， 变 换 后 ， 中 心 词 被 改 为 minutes, MW pp 
被 改 为 PP-FOR。 中 心 词 既 以 其 表面 形式 使 用 ， 也 以 原形 使 用 。 通 过 使 用 XTAG 形态 数 
WEFO 自动 进行 原形 化 [123]. 

成 分 的 第 一 个 和 最 后 一 个 单词 及 其 词性 一 些 论 元 的 第 一 个 和 最 后 一 个 单词 往往 具 
有 区 分 性 ， 这 两 个 词 及 其 词性 作为 4 个 新 的 特征 。 

成 分 位 置 顺序 一 一 此 特征 避免 远离 谓词 的 成 分 被 不 合 逻 辑 地 认定 为 论 元 。 这 是 成 分 类 
型 和 谓词 位 置 顺序 的 拼接 。 

成 分 树 距 离 一 一 这 是 描述 已 经 存在 的 位 置 特 征 的 一 种 更 好 的 方式 ， 这 里 谓词 成 分 的 距 
离 指 在 句法 树 中 从 一 个 节点 到 男 一 个 节点 需要 穿越 的 距离 。 

短语 相关 的 特征 一 一 由 9 个 特征 组 成 ， 代 表 短 语 类 型 、 父 节点 的 中 心 词 及 其 词性 、 短 语 
的 左右 兄弟 节点 。 增 加 这 些 信息 是 认为 树 的 上 下 文 信息 可 以 改善 系统 的 鲁 棒 性 和 泛 化 能 力 。 

时 间 提 示 词 一 一 时 间 提 示 词 没有 被 命名 实体 标注 分 类 器 识别 ， 因 此 可 用 二 值 特征 表示 
它们 的 存在 。BOW (Bag Of Words, W8) TROS 被 用 于 识别 具有 ARGM-TMP 论 元 
类 的 上 且 平均 互信 息 最 高 的 单词 和 词 二 元 组 。 





© ftp://ftp. cis. upenn. edu/pub/xtag/morph-1. 5/morph-1. 5. tar. gz, 
© http://www. cs. emu. edu/~ mecallum/bow/ , 
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动态 类 的 上 下 文 一 一 在 论 元 分 类 的 任务 中 ， 这 些 动态 特征 代表 与 待 分 类 节点 同一 棵 树 
上 的 最 多 前 两 个 非 空 节点 的 假设 。 

路 径 泛 化 一 一 我 们 将 在 4.5.2 节 中 看 到 ， 对 于 论 元 识别 任务 ， 路 径 是 最 突出 的 特征 之 
一 。 然 而 ， 它 也 是 最 稀 玻 的 特征 。 为 了 克服 这 个 问题 ， 路 径 需 用 以 下 几 种 不 同 的 方法 泛 化 : 

基于 子 多 的 路 径 变 化 子 句 节点 (S, SBAR) 的 位 置 在 论 元 识别 中 是 重要 的 特征 
[124] 。 因 此 ，Pradhan 等 [120] 用 4 个 基于 子 句 的 路 径 特征 进行 实验 。 

。 把 路 径 中 的 所 有 节点 替换 为 * (不 替换 子 句 节点 )。 例 如 ， 路 径 NP^S^ VPA 

SBAR Å NP Å VP 4 VBD ÆW NP^S^ «S^ « ^ x 4 VBD. SBAR 被 替换 为 S, 

。 只 保留 路 径 中 的 子 句 节 点， 这 对 于 上 面 的 例子 产生 NP À SAS} VBD. 

。 添加 二 值 特征 ， 显 示 成 分 是 不 是 和 谓词 处 于 同一 子 句 。 

。 去 掉 S 节点 之 间 的 节点 ， 路 径 变 为 NP4S+NPyVPYVBD。 

元 元 路 径 一 一 这 些 特征 分 解 成 一 系列 的 三 项 元 。 Pl. HNP 4*S4 VP 4 SBAR 4 
NP 人 人 VPYVBD 成 为 NP 人 人 Sf+VP、Sf+VP+SBAR、VP+ 人 SBAR 人 人 NP、SBAR * NP 4 VP 
Ar. 较 短 的 路 径 变 为 空 。 

单字 符 短 语 标签 一 一 每 个 短语 类 别 聚 类 为 一 个 用 第 一 个 字符 作为 短语 标签 的 类 别 。 

压缩 路 径 压缩 相同 标签 的 序列 ， 直 觉 是 连续 藤 套 的 树 上 相同 的 短语 可 能 不 会 增加 
额外 信息 。 

无 方向 路 径 一 一 删除 路 径 中 的 方向 ， 从 而 在 树 中 改变 方 回 的 点 不 那么 重要 。 

部 分 路 径 一 一 只 使 用 从 成 分 到 谓词 和 成 分 的 最 近 共 同 祖 先 的 路 径 。 例如， 图 4-10 展 
示 的 部 分 路 径 为 NP 人 + S, 

规范 地 处 理 路 径 的 另 一 个 工作 成 果 为 Vickrey 和 Koller [125] 的 工作 。 他 们 执行 二 个 
基于 规则 的 句子 简化 ， 试 图 目 动 获得 路 径 泛 化 。 

谓词 上 下 文 一 一 此 特征 能 体现 谓词 词义 变化 。 前 两 个 词 和 后 两 个 词 被 加 到 特征 集 。 这 
两 个 词 的 词性 也 被 加 入 特征 集中 。 

标点 符号 一 一 对 于 一 些 附加 论 元 ， 标 点 符号 起 着 重要 的 作用 。 这 组 特征 能 够 体现 标点 
符号 是 出 现在 成 分 之 前 和 之 后 。 

特征 上 下 文 一 一 父母 或 兄弟 姐妹 的 特征 对 组 成 成 分 的 分 类 是 有 用 的 。 传 统 上 ， 每 个 成 
分 被 独立 分 类 。 但 是 ， 实 际 上 一 个 成 分 可 以 有 的 论 元 的 类 别 和 数目 存在 着 复杂 的 关系 。 换 
名 话说 ， 每 个 论 元 的 分 类 依赖 于 其 他 节点 的 分 类 。 正如 我 们 在 后 面 看 到 的 ，Pradhan 等 的 
方法 用 论 元 序列 信息 执行 后 处 理 步 又 ， 但 是 这 不 可 能 覆盖 所 有 可 能 的 约束 条 件 。 在 现 有 的 
体系 结构 中 最 好 的 做 法 之 一 是 考虑 句子 的 所 有 非 空 成 分 的 特征 向 量 组 合 。 这 就 是 所 谓 的 特 
征 上 下 文 。 它 使 用 可 能 非 空 成 分 的 所 有 其 他 特征 向 量 值 作为 额外 的 上 下 文 。 

组 合 范 畴 语法 (Combinatory Categorial Grammar, CCG) 我 们 了 解 到 ， 尽 管 路 径 
特征 对 于 论 元 的 识别 非常 重要 ,但 它 是 最 稀疏 的 特征 之 一 ， 并 可 能 难于 训练 或 泛 化 (126, 
127]。 一 个 依存 语法 可 以 产生 较 短 的 从 甸子 中 的 谓词 到 依存 词 的 路 径 ， 这 对 于 从 PSG fif 
析 树 提取 的 短语 结构 语法 路 径 可 能 是 一 个 更 强大 的 补充 。Gildea Hockenmaier 的 [128] 4k 
告 说 明 使 用 CCG 表示 提取 的 特征 可 以 提高 核心 论 元 的 语义 角色 标注 的 性 能 (ARG0 一 5)。 
因为 CCG 树 是 二 叉 树 ， 而 且 其 成 分 很 难 和 谓词 的 语义 论 元 对 齐 ， 研 究 人 员 进 行 的 实验 中 
使 用 中 心 词 ， 而 不 是 整个 跨度 的 短语 。 后 来 ，Pradhan 等 (2005) [129] 用 这 些 特征 增强 
原 有 的 短语 结构 树 算 法 ， 以 获得 更 多 益处 。 

图 4-12 显示 了 CCG 分 析 的 句子 : London denied plans on Monday, Gildea 和 Hock- 
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enmaier [128] 介绍 了 三 个 特征 : 
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短语 rig 〈 谓 词 及 依存 词 ) 之 间 最 大 的 投影 范畴 。 
London denied plans on Monday sien 
Ww wW C 
: = : NP, S[dcl]\NP, 
denied London np i 1 | e H 
denied biii ^ c 
rd oak : London (Sj{dcl]\ M (P, ) IE. NP 
on denied 2 
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on Monday ((SWP,NSWP), NP), 





图 4-12 范畴 组 合 的 语法 分 析 


范畴 路 径 一 一 把 以 下 三 个 值 拼 接 起 来 形成 的 特征 : 1) 依存 词类 别 ; 2) 依存 方向 ; 
3) 依存 词 填 充 的 范畴 槽 。 例 如 ， 在 图 4-12 Wi, denied 和 plans 之 间 的 路 径 为 〈S 
[del ]|\NP1)/NP2. 一 

树 的 路 径 一 一 这 是 以 Charniak 分 析 器 为 基础 的 系统 的 路 径 特征 在 CCG 中 的 类 似 物 。 
CEW TÆ CCG 树 中 从 依赖 词 到 谓词 的 路 径 。 

树 邻 接 语法 (Tree-Adjoining Grammar, TAG) Chen 和 Rambow [130] 给 出 两 种 
不 同 的 特征 集结 果 : 1) Gildea 和 Palmer [131] 系统 使 用 的 表面 语法 特征 ; 2) MAE H 
库 中 的 TAG 抽取 的 额外 特征 。 他 们 选择 了 TAG， 因为 它 有 能 力 解 决 文中 的 长 距离 依赖 
性 。 他 们 使 用 的 额外 特征 是 : 

超级 标签 路 径 一 一 这 些 特征 和 前 面 看 到 的 路 径 特征 是 相同 的 ， 只 是 它 是 来 目 于 TAG. 
而 不 是 来 目 于 PSG. 

超级 标签 一 一 这 个 特征 是 树 框架 对 应 的 谓词 或 论 元 。 

表层 句法 角色 一 一 这 个 特征 是 论 元 的 浅 层 语义 角色 。 

表层 次 范畴 一 一 这 个 特征 是 次 范畴 框架 。 

深层 语义 角色 一 一 这 个 特征 是 论 元 的 深层 角色 ， 其 值 包括 主语 和 直接 宾语 。 

深层 次 范畴 一 一 这 是 深层 语法 次 范畴 框架 。 比 如 ， 对 于 一 个 及 物 动词 ， 它 可 能 是 NPO_ 

NP1。 如 可 能 ， 修 饰 NP 的 介词 将 被 用 于 词汇 化 该 特征 。 所 以 ， 对 于 谓词 load， 可 能 的 框 
如 是 NPO NP1 NP2(into), 

语义 范畴 Gildea 和 Palmer 使 用 语义 次 范畴 框架 ， 这里， 除了 语义 范畴 ， 这 些 特 
征 还 包括 语义 角色 信息 。 

虽然 很 多 研究 者 手动 构建 各 种 各 样 的 特征 ，Moschitti、Pighin 和 Basili [132] 尝试 了 
不 同 的 方法 。 他 们 使 用 树 核 从 大 量 自动 生成 的 模式 中 识别 并 选择 子 树 模式 ， 以 捕获 树 的 上 
下 文 信息 。 不 过 在 这 个 应 用 中 ， 人 性 能 比 手动 选择 的 特征 稍微 差 一 点 。 可 能 对 于 其 他 机 需 学 
习 的 问题 ， 当 手工 选择 的 特征 很 不 直观 时 ， 这 个 技术 是 有 价值 的 。 

依存 树 ”到 目前 为 止 的 一 个 理论 问题 是 ， 系 统 的 性 能 依赖 于 宾 州 树 库 中 标注 的 论 元 精确 
集合 。 只 有 当 它 们 和 PropBank 的 标签 是 完全 一 样 的 ， 标 注 才 是 正确 的 ， 括 号 和 标签 都 必须 
是 匹配 的 。 因 为 PropBank 和 大 多 数 语法 分 析 器 是 在 宾 州 树 库 语 料 的 基础 上 开发 的 ， 因 此 是 
基于 相同 的 语法 结构 ， 可 以 期 望 上 述 两 种 形式 会 比 其 他 的 表示 更 匹配 PropBank 的 标注 。 但 
是 ， 这 里 的 分 数 越 高 ， 是 否 意味 着 其 输出 对 建立 在 这 些 角 色 标 签 之 上 的 应 用 而 言 更 好 用 呢 ? 
特定 的 括号 标注 经 常 不 是 那么 重要 ， 而 论 元 中 心 词 和 谓词 之 间 的 关系 才 是 更 关键 的 信息 。 使 
用 这 些 策 略 可 以 使 算法 的 输出 产生 更 高 的 性 能 ，F 值 (F-score) 约 为 85% (比较 原来 
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的 79%). 

Hacioglu [133] 给 出 了 用 Hwa, Lopez 和 Diab [134 ] 的 脚本 程序 将 宾 州 树 库 的 树 转 
化 为 依存 树 的 语义 角色 标注 的 问题 ， 建 立 了 带 有 PropBank 论 元 的 依存 结构 树 。 这 个 系统 
上 的 性 能 比 其 在 短语 树 上 的 下 值 性 能 有 5 个 点 的 提高 。 和 其 他 方式 比较 ， 一 个 可 能 的 缺点 
是 ， 所 有 的 分 析 器 在 相同 的 宾 州 树 库 上 进行 训练 ， 并 进行 评估 。 如 果 在 非 WS 语 料 上 评 
fi, WHERE FE BE. Pradhan [129] 进行 实验 找 出 基于 规则 的 依存 分 析 器 的 性 能 如 何 。 
Minipar [135, 136] 是 一 个 基于 规则 的 依存 分 析 器 。 它 输出 中 心 词 和 其 他 修饰 词 之 间 的 依 
存 关 系 。 每 个 词 只 能 修饰 至 多 一 个 词 。 依 存 关 系 形 成 依存 树 。 在 Minipar 的 依存 树 中 每 个 
节点 的 一 组 词 形成 一 个 在 原 句 段 中 连续 的 片段 ， 并 对 应 于 成 分 树 中 的 成 分 。 图 4-13 显示 
了 谓词 kick 的 论 元 如 何 映 射 到 短语 结构 语法 树 和 Minipar 分 析 树 的 节点 。 代 表 成 分 中 心 词 
的 节点 是 分 类 的 目标 。 它 们 使 用 和 Hacioglu [133」 相 同 的 特征 (参见 表 4-4). 


ad 
E N 


C John kicked the ball 


图 4-13 新 的 体系 结构 
在 PropBank 语 料 上 ，Minipar 性 能 比 基 于 Charniak 的 系统 差 很 多 (47. 2， 如 果 使 用 
严格 的 跨度 标准 计算 )。 这 正如 预期 的 ， 因 为 Minipar 并 不 是 设计 为 产生 完全 匹配 宾 州 树 
中 采用 的 分 割 成 分 的 组 成 成 分 。 
表 4-4 用 Minipar 分 析 器 的 基线 系统 所 使 用 的 特征 









中 心 词 在 依存 树 中 表示 节点 的 词 

中 心 词 词性 中 心 词 的 词性 

词性 路 径 在 树 中 连接 各 节点 的 词性 的 依存 树 中 ， 谓 词 到 中 心 词 的 路 径 

依存 路 径 每 个 连接 到 中 心 词 的 词 有 一 个 依存 关系 ， 以 词 间 弧 上 的 标签 表示 。 本 特征 由 连接 
两 词 的 路 径 上 的 依存 标签 组 成 

语 态 谓词 的 语 态 

位 置 节点 在 谓词 之 前 或 之 后 


在 Hacioglu [133] 的 实验 中 ， 不 匹配 的 8 为 是 从 树 库 到 依存 树 的 转化 而 导致 的 。 使 
用 自动 生成 的 有 错 的 树 ， 会 产生 更 高 的 不 匹配 。 对 于 CCG 的 分 析 树 ， 如 Gildea 和 Hock- 
enmaier [128] 的 结论 ， 不 匹配 率 约 为 23%。 一 个 更 可 行 的 对 性 能 评分 的 方式 是 对 赋 给 成 
分 的 中 心 词 的 标注 进行 评分 ， 而 不 考虑 成 分 的 真正 边界 。 这 个 结果 约 为 61.7 B FH. x 
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好 得 多 ， 并 且 提 供 了 正 交 的 好 处 。 这 些 结 果 是 把 依存 树 和 短语 结构 谓词 - 论 元 结构 集成 到 
一 起 的 令 人 信服 的 证 据 。 

从 那 时 起 ， 在 依存 分 析 树 分 析 方 面 就 有 很 多 工作 可 做 ， 并 有 了 一 系列 的 实验 。 举 行 了 
两 个 自然 语言 处 理学 习 (Computational Natural Language Learning, CoNLL) 共享 任务 
[137, 138] 以 推进 依存 分 析 和 语义 角色 标注 的 结合 , 这些 包括 Johansson 和 Nugues 
[139] 和 使 用 更 丰富 的 句法 依存 表示 ， 考 虑 树 间 隔 (gap) 和 迹 (trace)， 并 把 PropBank if 
词 和 论 元 映射 到 这 种 表示 。 

基本 短语 块 ” 一 个 常见 的 问题 是 ， 完 整 的 语法 表示 对 语义 角色 标注 任务 有 帮助 吗 ? 换 
句 话 说， 在 对 一 个 谓词 的 论 元 分 类 前 ， 创 建 一 个 完整 的 句法 树 有 多 重要 ? 块 表示 也 许 更 
快 ， 对 出 现在 语音 数据 中 的 短语 重 排序 可 能 更 鲁 棒 。Gildea Al Palmer [131 ] 使 用 基于 块 的 
方式 探讨 这 个 问题 ， 结 果 是 ， 和 句法 分 析 有 助 于 填补 这 个 大 差距 。Hacioglu [124] 进一步 学 
试 基 于 块 的 语义 标注 方法 ， 达 到 了 较为 乐观 的 结论 。Punyakanok、Roth 和 Yih [140] 也 
报告 了 分 块 实验 。 一 般 来 说 ， 基 于 块 的 系统 把 每 个 基本 短语 (base phrase) 分 为 B (语义 
角色 的 开始 )、I (语义 角色 内 )、O (语义 角色 外 ， 即 无 )， 这 就 是 二 个 IOB RA. AA 
外 一 个 SVM 分 类 需 为 每 个 块 赋予 语义 标签 。 图 4-14 显示 分 块 流程 的 示意 图 。 表 4-5 列 


Sales declined 3% to $ 524.5 million from 539.4 million. _ 


| | sie aa aan 
| | | 抽取 特征 | 











图 4-14 语义 组 块 器 


对 于 每 个 待 标 注 的 单位 (基本 短语 )， 通 过 围绕 着 每 块 的 固定 大 小 的 上 下 文 创建 一 组 
特征 。 除 了 上 述 特 征 ， 分 块 程序 使 用 先前 已 经 被 赋 到 语 境 中 单位 的 语义 标签 。 用 5 个 单位 
的 滑动 窗口 来 表示 语 境 。 在 识别 和 分 类 任务 中 的 性 能 约 为 70 的 F 值 。 

2. 分 类 范式 

在 上 一 节 中 ， 我 们 考察 了 多 种 句子 层次 的 结构 表示 ， 用 来 解决 语义 角色 标注 问题 ， 也 
考察 了 这 些 表示 的 特征 ， 这 些 特征 可 训练 一 个 模型 从 而 实现 自动 识别 。 在 这 一 部 分 中 ,我 
们 专注 在 这 个 问题 所 使 用 的 机 器 学 习 方 法 。 这 些 方法 有 着 不 同 的 复杂 性 。 最 简单 的 方法 是 
把 语义 角色 标注 当成 一 个 纯粹 的 分 类 问题 ， 其 中 每 一 个 谓词 的 论 元 分 类 和 该 谓词 其 他 论 元 
的 分 类 是 独立 的 。 甚 他 的 研究 人 员 采 取 了 这 种 基本 范式 ， 但 是 增加 了 一 个 简单 的 后 处 理 除 
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去 了 一 些 明 显 不 可 能 的 分 析 结 果 ， 比 如 两 个 论 元 的 重 玲 。 一 些 更 复杂 的 方法 用 针对 具体 论 
元 的 语言 模型 或 框架 元 素 组 统计 增强 了 后 处 理 步 又 。 这 些 后 处 理 在 很 大 程度 上 解决 了 原 有 
的 独立 性 假设 带 来 的 问题 。 

也 有 一 些 更 复杂 的 方法 进行 所 有 论 元 的 联合 解码 ， 试 图 捕捉 论 元 间 的 相互 依赖 关系 。 
可 惜 这 些 方法 到 目前 为 止 只 产生 了 轻微 的 效果 ， 部 分 原因 在 于 使 用 一 个 单纯 的 分 类 器 ， 再 
通过 一 个 后 处 理 和 项， 已 经 可 以 取得 较 好 的 效果 。 在 这 一 部 分 ， 我 们 不 再 提供 所 有 方法 的 详 
细 描 述 ， 而 专注 于 一 种 当前 有 较 高 性 能 的 方法 ， 该 方法 能 有 效 地 利用 多 知识 源 。 并 且 采 用 
一 种 联合 架构 ， 当 处 理 非 训练 类 型 的 文本 时 ， 人 性 能 不 会 急剧 下 降 。 


X 4-5 ”基于 组 块 的 分 类 器 使 用 的 特征 


词 块 中 的 词 

谓词 原形 谓词 的 原形 

词性 标记 块 中 词 的 词性 

基本 短语 位 置 基本 短语 中 词 元 的 位 置 ， 采 用 IOB? 表示 ，、 如 B-NP, LNP, O 
子 句 标记 标记 与 子 句 相关 的 句 中 词 元 位 置 的 标记 串 

词 元 位 置 与 谓词 相关 的 短语 位 置 ， 取 3 个 值 :“before” “after” 以 及 “-”( 对 谓词 而 言 ) 
路 径 定义 词 元 与 谓词 间 的 扁平 路 径 

子 句 括号 模式 

子 句 位 置 表明 词 元 是 否 在 包含 谓词 的 子 句 之 内 或 之 外 的 二 元 特征 

A ot a EE 中 心 词 的 长 度 为 2~4 的 后 缀 

距离 词 元 与 谓词 间 的 距离 ， 以 基本 短语 个 数 或 VP 块 的 个 数 来 度量 
长 度 块 中 词 的 个 数 

谓词 词性 标记 谓词 的 词性 范畴 

谓词 频率 常用 或 非常 用 ( 阅 值 为 3) 

谓词 基本 短语 上 下 文 以 谓词 为 中 心 的 左右 窗口 大 小 为 2 以 内 的 基本 短语 链 

谓词 词性 上 下 文 紧邻 谓词 前 后 的 词 的 词性 标记 

谓词 论 元 框架 谓词 左右 的 核心 论 元 模式 

谓词 个 数 句子 中 请 词 的 个 数 


首先 ，Gildea 和 Jurafsky [113] 给 出 了 改进 的 语义 角色 标注 算法 ,包括 两 个 步骤 。 
首先 ， 该 系统 基于 两 个 特征 已 ( 论 元 | Re. Bi) 和 P( 论 元 | Poi, WW), HA 
成 分 作为 论 元 的 最 大 似 然 概率 。 其 次 ， 对 每 个 其 论 元 概率 非 0 的 成 分 ， 通 过 对 条 件 依赖 于 
各 种 特征 集 的 概率 分 布 进行 插值 ， 归 一 化 概率 ， 
并 选择 最 可 能 的 论 元 序列 。 他 们 所 用 的 概率 分 布 
如 表 4-6 所 示 。 

Surdeanu 等 人 [118] 使 用 决策 树 分 类 算法 EU AE 
C5[142, 143], 3 Æ JH fü Gildea, Jurafsky[ 113] PE fy bee aun 
相同 的 特征 。 分 类 器 内 置 的 增强 能 力 使 性 能 略 有 P( 论 元 | 短语 类 型 ， 位 置 ， 语 态 ) 
改善 。Chen 和 Rambow[130] 提出 使 用 决策 树 分 POGET | 短语 类 型 ， 位 置 ， 语 态 ， 谓 词 ) 
类 器 C4.5[142], Fleischman fll Hovy[ 144] 给 出 de | n iii 路 径 ， ND 
了 在 FrameNet W} E fii FH Je X Ji oP 25 d HY $5 das | d ak dic P ER: ege 
JR, Pradhan 5&A[120] 使 用 SVM 在 PropBank Pr( 论 元 | 中心 词 ， 谓词) 
BB LRG SRE. SAW, RK POET | 中 心 词 ， 短 语 类 型 ， 谓 词 ) 
类 器 和 SVM 的 结果 差异 是 很 小 的 。 

Pradhan 等 人 [120] 给 出 了 利用 各 种 分 类 器 在 同一 数据 集 使 用 相同 特征 集 的 结果 ， 
并 进行 比较 。Gildea 和 Palmer [131] 的 系统 使 用 几 种 不 同 特征 集 估 算 后 验 概 率 并 且 进 


X 4-6 MM Charniak 分 析 树 抽取 的 特征 计算 的 
用 于 语义 论 元 分 类 的 概率 分 布 


A AB 
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行 插值 ， 这 和 Gildea, Jurafsky [113] 系统 的 估计 完全 一 样 。 而 Surdeanu 等 人 [118] 使 
用 决策 树 分 类 器 。 表 4-7 显示 三 种 不 同系 统 的 论 


元 分 类 性 能 。 表 4-7 不 同 的 分 类 器 使 用 相同 的 特征 的 论 元 
在 实验 中 ， 我 们 使 用 TinySVMS 和 Yam- 分 类 

Cha? 一 起 作为 SVM 训练 和 测试 软件 [145， 分 类 器 EMR (6) 

146]. SVM 的 参数 ， 如 核 函 数 的 类 型 及 其 他 SVM (Pradhan 等 [120]) 88 

参数 的 值 是 使 用 开发 集 根据 经 验 确定 的 。 选 择 。 Gp E D E 


一 个 度 为 2 BS ZELLE PR C. Hox o) JR BS 
位 成 本 C=1, 2IERTEZS 25 e—0. 001, 
SVM 在 文本 分 类 任务 中 的 性 能 良好 ， 在 这 些 任 务 中 ， 使 用 高 维 稀疏 特征 向 量 来 表示 
数据 [147，148]。 受 到 使 用 SVM 成 功 为 短语 块 进行 标注 的 启发 [145]. Pradhan 等 人 
[149, 126, 120] 把 语义 角色 标注 问题 看 为 一 个 使 用 SVM 的 多 元 分 类 问题 。 
SVM 本 质 上 是 一 个 二 元 分 类 器 ， 但 多 元 分 类 问题 也 可 以 归 为 多 个 二 元 分 类 问题 ， 可 
以 采用 一 对 一 的 成 对 方式 或 者 一 对 多 的 (One Versus All, OVA) 方式 1150] 。 对 于 使 用 


成 对 方法 的 N 类 问题 ， 为 每 对 可 能 的 类 别 训练 全 “> 一 “个 二 元 分 类 器 。 而 对 于 OVA Jr 


式 ，N 个 二 元 分 类 器 被 训练 为 区 别 每 个 类 和 由 剩余 类 组 合 创建 的 元 类 。 比 较 这 两 种 方式 ， 
主要 是 要 训练 的 分 类 器 数目 及 训练 分 类 器 使 用 的 数据 规模 的 权衡 。 虽 然 有 些 实验 的 结论 是 
成 对 的 方法 优 于 OVA 方式 [151], 但 Pradhan 等 人 [120] 的 初步 实验 显示 OVA 有 更 好 
的 性 能 。 因 此 ， 他 们 选择 了 OVA 的 方法 。 

SVM 输出 从 最 大 间隔 超 平面 到 一 个 特征 向 量 的 距离 。 为 了 便于 产生 概率 阅 值 并 生成 
n-best 假设 格 ， 他 们 通过 将 sigmoid 函数 拟 合 到 得 分 ， 把 距离 转换 为 概率 ， 如 Platt [152] 
所 述 。 

这 个 系统 包括 两 个 阶段 : 训练 阶段 和 测试 阶段 。 我 们 首先 讨论 SVM 是 如 何 进行 训练 
的 。 因 为 支持 向 量 机 的 训练 时 间 随 着 训练 实例 数目 的 增长 而 呈 指 数 增长 ， 而 在 句法 树 中 ， 
90% 的 节点 都 具有 空 论 元 标签 ， 将 训练 过 程 分 为 两 个 阶段 是 更 有 效 的 : 

D 过 滤 掉 高 概率 为 空 的 节点 。 在 整个 数据 集 上 训练 一 个 二 元 的 空 或 非 空 分 类 器 。 如 
Platt[152] 所 描述 ， 将 sigmoid 函数 拟 合 到 原始 得 分 以 转换 为 概率 。 分 类 器 处 理 所 有 的 训 
练 实例 ， 空 角色 和 非 空 角色 的 相应 得 分 被 sigmoid 函数 转换 为 概率 。 最 有 可 能 为 空 的 节点 
(概率 这 0. 90) 被 从 训练 集中 剪 掉 。 这 可 使 空 节 点 的 数目 减少 90 5. 节点 总 数 减 少 约 80%. 
这 可 能 会 剪 掉 一 些 非 空 节 点 ， 但 可 忽略 不 计 CA 120. 

2) 其 余 的 训练 数据 被 用 来 训练 包含 一 个 空 类 的 所 有 类 的 OVA 分 类 器 。 

采用 这 个 策略 ， 只 有 一 个 分 类 器 ( 空 或 非 空 ) 在 所 有 数据 上 训练 。 其 余 的 OVA 分 类 
器 在 过 滤 节 点 上 训练 ( 约 为 总 数 的 20%)， 从 而 能 够 大 大 地 节省 时 间 。 

在 测试 阶段 ， 所 有 的 节点 被 分 类 器 直接 归 为 空 角色 或 在 第 2 阶段 训练 的 分 类 器 训练 的 
角色 。 如 果 第 一 遍 时 我 们 对 测试 集 采 用 空 或 非 空 的 OVA 分 类 器 来 进行 过 滤 ， 就 像 我 们 在 
训练 阶段 所 做 的 那样 ， 则 召回 率 会 有 一 点 下 降 。 这 很 少 的 性 能 提升 只 需要 很 少 的 计算 成 
本 ， 这 是 因为 在 测试 阶段 ，SVM 的 速度 是 非常 快 的 。 测 试 算法 的 伪 代 码 如 图 4-3 所 示 。 

其 中 一 个 变化 是 ， 这 种 策略 将 在 第 一 阶段 过 滤 所 有 的 空 实例 而 不 是 只 剪 掉 高 概率 的 空 节 


© http://chasen. org/~taku/software/TinySVM/ 。 
© http://chasen. org/~taku/software/yamcha/ 。 
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点 。 但 这 种 方法 会 使 性 能 显著 下 降 。 

对 于 标准 的 树 库 分 析 树 ， 这 样 的 系统 对 论 元 识别 和 分 类 联合 任务 的 性 能 是 90 6 DA E, 
而 对 于 上 自动 生成 的 分 析 树 ， 性 能 是 接近 80%. 

3. 殉 服 独立 性 假设 的 问题 

正如 前 面 所 提 到 的 ， 已 经 提出 各 种 后 处 理 方法 ， 它们 作为 一 系列 独立 的 论 元 分 类 步 
又 ， 用 来 克服 语义 角色 标注 的 限制 。 我 们 现在 来 看 这 样 的 一 些 策略 。 

不 允许 重合 ”由 于 每 个 成 分 的 分 类 和 其 他 成 分 的 分 类 是 独立 的 ， 可 能 两 个 重生 的 成 分 
被 赋 给 同一 个 论 元 类 型 。 因 为 我 们 的 处 理 对 象 是 分 析 树 ， 词 中 节点 的 重 又 总 是 有 一 个 祖先 
-后 代 的 关系 ， 因 此 重叠 被 限制 为 如 例 4-1 所 示 的 包容 。 

例 4-1 But [ARGO nobody] [ predicate knows | [ARGI at what level [ ARGI the futures 
and stocks will open today | | 

EX BIA Tw. AA BBM sce PropBank 中 是 不 允许 的 (或 者 ， 更 具体 地 说 ， 
一 个 动词 谓词 的 任意 两 个 论 元 在 FrameNet rP dé Z4 ERO. 。 解 决 这 个 问题 的 一 个 方法 
是 在 重 登 的 论 元 中 进行 选择 ， 仅 保留 在 SVM 上 获得 最 高 可 信和 度 (基于 分 类 概率 ) 的 一 个 ， 
而 其 他 的 设置 为 空 角色 。 应 用 sigmoid 函数 对 SVM 原始 得 分 进行 转换 得 来 的 概率 可 用 作 
可 信和 度 的 度量 。 

论 元 序列 信息 男 一 种 方法 是 使 用 已 有 的 信息 ， 如 Gildea 和 Jurafsky (2002) [113] 
提出 ,一 个 谓词 可 能 包括 一 组 特定 的 论 元 类 型 ， 从 而 提高 统计 论 元 标注 性 能 。 一 个 类 似 的 
但 更 有 条 理 的 方法 包括 增加 一 些 额 外 的 约束 ， 论 元 顺序 信息 被 保留 ， 谓词 也 被 看 作为 论 
元 ， 是 序列 的 一 部 分 。 可 以 这 么 做 来 实现 这 个 想法 : 首先 像 前 面 介 绍 的 将 原始 的 SVM 分 
数 转化 为 概率 ， 在 论 元 序列 中 训练 trigram 语言 模型 。 然 后 ， 对 于 每 个 正在 分 析 的 句子 ， 
对 语法 树 上 的 每 个 节点 使 用 n-best 假设 产生 论 元 格 。 通 过 格 (该 格 使 用 由 sigmoid 得 到 的 
概率 作为 观察 概率 以 及 语言 模型 概率 ) 执行 Viterbi 搜索 ， 找 出 最 大 似 然 路 径 ， 这 样 每 个 
节点 被 分 配 一 个 属于 PropBank 的 论 元 或 空 值 。 

该 搜索 被 限制 为 这 样 的 一 种 方式 : 没有 两 个 非 空 节点 重 玲 。 为 了 简化 搜索 ，Pradhan 
等 人 [120] 只 允许 空 角色 被 赋予 其 空 概率 高 于 阅 值 的 节点 。 而 通过 训练 语言 模型 ， 我 们 
可 以 用 实际 的 谓词 估计 转移 到 谓词 或 从 谓词 转移 出 的 概率 ， 或 者 我 们 可 以 对 所 有 的 谓词 执 
行 一 个 联合 估计 。Pradhan 等 人 发 现 合 并 识别 和 分 配 语义 论 元 可 以 提高 核心 论 元 的 精确 
性 ， 而 附加 论 元 的 精确 度 稍微 降低 了 。 这 是 合乎 逻辑 的 ， 对 附加 论 元 的 顺序 和 数量 的 约束 
比较 宽松 。 因 此 ， 使 用 这 种 策略 对 于 核心 论 元 是 有 益 的 。 同 时 也 使 用 了 一 些 其 他 的 使 用 论 元 
上 下 文 信息 的 策略 。Tputanova 、Haghighi 和 Manning [ 153 ] 提出 对 于 给 定 谓词 用 对 数 线性 模 
型 来 预测 语义 角色 的 一 种 全 局 模型 。 而 Punyakanok A [154] 用 一 种 基于 整数 线性 规划 为 
基础 的 推理 框架 来 提高 语义 角色 标注 的 性 能 。 这 两 种 方法 与 Viterbi 方法 相 比 有 一 些 提高 。 

4. 特征 性 能 

在 每 个 任务 中 ， 并 不 是 所 有 的 特征 都 有 用 。 某 些 特征 在 有 些 上 下 文中 加 入 了 了 更 多 的 品 
声 而 不 是 有 用 信息 。 特 征 的 功效 取决 于 它们 所 使 用 的 分 类 范式 。 表 4-8 显示 了 把 每 个 特征 
分 别 加 到 论 元 分 类 和 论 元 识别 的 任务 中 所 获得 的 对 于 基线 系统 的 效果 。 此 外 ， 将 命名 实体 
的 特征 加 入 到 空 、 非 空 分 类 器 会 使 性 能 下 降 ， 这 种 效应 主要 归 因 于 两 个 问题 : 10 很 多 包括 
命名 实体 的 成 分 不 是 谓词 的 论 元 (一 个 论 元 的 父 节点 可 能 包括 相同 的 命名 实体 )， 在 空 或 非 
空 的 分 类 中 这 成 为 一 个 噪声 特征 ; 2 SVM 不 能 较 好 处 理 无 关 的 特征 [L155]。 当 这 些 从 树 库 
抽取 的 特征 被 单独 用 在 代表 论 元 的 成 分 分 类 时 ， 整 体 分 类 准确 率 从 87. 9% 上 升 到 88.1%, m 
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添加 中 心 词 的 词性 作为 一 个 特征 将 显著 地 提高 论 元 分 类 和 论 元 识别 任务 的 性 能 。 


表 4-8 ”把 每 个 特征 加 到 基线 系统 ， 对 论 元 分 类 和 论 元 识别 中 特征 的 影响 。 星 号 表示 改进 在 统计 
上 是 显著 的 
EX SOR 
TF {iE 
WA * ank F 


Baseline [120] .9 93. 7 88. 9 91. 3 
+ Named entities vl 93. 3 88. 9 91. 0 
+ Head POS :6 94.4 90. 1 * 92. 2 
+ Verb cluster sI 94. 1 89. 0 91.5 
+ Partial Path i 93.3 88. 9 91.1 
+ Verb sense «1 93.7 89.5 91.5 
+ Noun head PP (only POS) .6 94. 4 90. 0 "92 7 
十 Noun head PP (only head) .8 94. 0 89.4 91.7 
十 Noun head PP (both) .9 94. 7 90. 5 *92.6 
-++ First word in constituent .0 94. 4 91.1 93:7 
--Last word in constituent .4 93. 8 89.4 91.6 
+ First POS in constituent .4 94. 4 90. 6 * 92.5 
+ Last POS in constituent (9 93. 6 89. 1 91. 3 
十 Ordinal const. pos. concat. it 93.7 89. 2 91.4 
十 Const. tree distance .0 93,7 89.5 91.5 
+ Parent constituent .9 94. 2 90. 2 * 92.2 
十 Parent head .8 94. 2 90. 5 "923. 3 
+ Parent head POS is 94. 3 90. 3 * 92.3 
T Right sibling constituent .9 94. 0 89. 9 91.9 
T Right sibling head .9 94.4 89. 9 * 92. 1 
c Right sibling ehad POS of 94.1 89.9 92.0 
+ Lelf sibling constituent . 6 93.6 89. 6 91. 6 
T Left sibling head .9 93. 9 86. 1 89. 9 
+ Left sibling head POS .8 93. 5 89. 3 91.4 
+ Temporal cue words .6 -— E v 

J- Dynamic class context .4 = -一 = 





s. 特征 显著 性 
在 对 系统 性 能 的 分 析 中 ， 人 和 估计 所 用 的 各 种 特征 集 的 相对 贡献 是 有 用 的 。 表 4-9 显示 了 
各 种 特征 组 合 对 使 用 树 库 分 析 树 在 训练 集 和 测试 集 上 对 所 有 PropBank 论 元 进行 论 元 分 类 


的 准确 率 。 
在 表 4-9 的 上 半 部 分 ， 我 们 看 到 ， 表 4-9 各 种 特征 组 合 在 论 元 分 类 任务 的 性 能 
在 一 次 去 掉 一 个 特征 后 ， 性 能 下 降 。 特 特 ” 征 准 确 率 
征 按 照 显著 性 增加 的 顺序 进行 排序 。 去 i ERTA 
掉 所 有 与 中 心 词 相关 的 信息 ， 性 能 将 显 E ee LA REDI E is 
著 降 低 。 表 4-9 的 下 半 部 分 显示 了 一 些 。 除了 中 心 词 及 其 词性 外 的 所 有 特征 90. 7 
特征 组 合 的 表现 。 表 4-10 显示 在 论 元 识 。 除了 所 有 短语 外 的 所 有 特征 * 83. 6 
ee RE. JU ree A Sa e NU DE die Lr 
4 j \ E SAL aa AL 18] 、 ]n Fi SF (ik "79. 
掉 路 径 对 性 能 有 最 小 的 影响 , 而 在 论 元 ouem 0 oa 
识别 中 ， 去 掉 路 径 信息 将 导致 SVM UI 品 用 路 径 和 短语 类 型 pe 
练 的 收敛 速度 变 慢 ， 并 且 对 性 能 有 最 不 RAP ial 37.7 
0 


利 的 影响 。 A ed 
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X 4-10 各 种 特征 组 合 在 论 元 识别 任务 的 性 能 


特 征 精 确 率 a m 率 Fl 
所 有 特征 [120] 95. 2 92. 5 93. 8 
除了 中 心 词 外 的 所 有 特征 95. 1 92. 3 93. 7 
除了 谓词 外 的 所 有 特征 94. 5 91. 9 93. 2 
除了 中 心 词 、 外 来 词 和 LW 信息 外 的 所 有 特征 91. 8 88. 5 * 90. 1 
除了 路 径 和 部 分 路 径 外 的 所 有 特征 88. 4 88. 9 “88.6 
只 用 路 径 和 中 心 词 88.5 84. 3 86. 3 
只 用 路 径 和 谓词 89. 3 81.2 85. 1 
6. 特征 选择 


事实 上 ， 加 入 命名 实体 识别 特征 对 空 或 非 空 分 类 器 的 性 能 产生 了 不 利 影响 ， 而 相同 的 特征 
集 显 示 论 元 分 类 任务 的 识别 性 能 有 了 显著 的 改善 ， 这 表明 特征 选择 策略 是 有 益 的 。 一 种 策 
略 是 进行 去 一 法 (leave-one-out) 实验 ， 即 每 次 我 们 从 总 的 特征 集中 分 别 去 掉 一 个 特征 ， 
根据 性 能 下 降 的 程度 来 决定 是 保留 还 是 剪 掉 该 特征 。 这 是 一 种 较为 简单 的 特征 选择 策略 ， 
它 假设 特征 之 间 是 相互 独立 的 。 我 们 可 以 使 用 更 复杂 的 特征 选择 策略 。 如 采用 SVM 分 类 ， 
根据 每 个 论 元 类 型 选择 特征 的 一 个 缺点 是 : SVM 输出 的 是 距离 ， 而 不 是 概率 。 不 同 分 类 器 
的 距离 可 能 是 不 可 比 的 ， 特 别 是 当 采 用 不 同 的 特征 来 训练 一 个 二 元 分 类 需 时 。 一 种 解决 方法 
是 使 用 Platt [152] 提出 的 算法 通过 拟 合 sigmoid 函数 将 SVM 得 分 转化 为 概率 。Foster 和 
Stine [156] 展示 的 Pool-Adjacent-Violators (PAV) 算法 [157] 提供 了 一 种 当 Platt 算法 失效 
时 能 够 更 好 地 把 原始 分 类 器 的 得 分 转变 为 概率 的 方法 。 转 换 的 概率 可 能 不 准确 ， 在 这 种 情况 
下 ， 概 率 可 被 分 组 ， 并 且 可 以 训练 一 个 扭曲 (warping ) PSOE VETTER TE. 

7. 训练 语 料 的 规模 | 

FE (a WEE 2J 7r 1 88 — 1 AR BS 89 [8] R8 A VIL 3 a PE BE PR 8 Br s VIE CER. DJ 
了 检验 这 个 学 习 问 题 ，Pradhan FA [129] AAFAA BL BS VIL ARH DEVIL EI A 2S a. AR 
如 图 4-15 所 示 。 从 上 往 下 的 第 一 条 曲线 为 单独 进行 论 元 识别 的 Fi 值 的 变化 曲线 。 第 三 条 
曲线 为 结合 论 元 识别 和 分 类 任务 所 得 到 的 Fi 值 的 变化 曲线 。 可 以 看 到 ， 从 10 000 个 实例 
后 ， 识 别 性 能 趋向 于 稳定 ， 这 表明 简单 地 使 用 更 多 的 数据 不 是 一 个 好 的 策略 。 一 个 更 好 的 
策略 是 只 标注 适当 数目 的 新 数据 。 此 外 ， 事 实 上 第 一 和 第 三 条 曲线 〈 第 一 条 是 进行 论 元 识 
别 任务 的 F 值 ， 第 三 条 曲线 是 同时 进行 论 元 分 类 和 识别 的 值 ) 几乎 平行 ， 这 说 明 对 整个 
数据 的 分 类 存在 一 定 的 错误 。 解 决 这 个 问题 的 一 种 方法 是 找 出 更 好 的 特征 。 

8. 克服 名 法 分 析 错 误 

在 进行 详细 的 错误 分 析 后 ，Pradhan 等 人 [129] 发 现 由 于 识别 问题 ， 进 一 步 提 高 整体 
系统 的 性 能 存在 着 瓶颈 。 基 线 系统 在 已 知 是 论 元 的 情况 下 进行 分 类 的 准确 率 可 达到 90%. 
另 一 方面 ， 该 系统 的 识别 性 能 稍 低 ， 只 得 到 80% 的 召回 率 和 86% 的 准确 率 。 这 些 识别 错 
误 的 原因 主要 有 两 个 。 一 个 是 当 语 法 成 分 已 经 在 分 析 树 中 时 ， 系 统 并 不 能 识别 出 所 有 有 语 
义 角色 的 成 分 ， 还 会 把 没有 语义 角色 的 成 分 误 识别 出 来 。 男 一 个 错误 是 句法 分 析 器 根本 没 
有 提供 与 正确 论 元 相对 应 的 成 分 。 用 Charniak 分 析 器 的 分 类 性 能 比 用 树 库 分 析 树 的 值 
差 了 3 个 点 。 另 一 方面 ,用 Charniak 分 析 器 进行 论 元 识别 的 性 能 值 差 了 12.7 个 点 a 错 
误 的 一 半 ， 大 约 7 个 点 ， 主 要 是 因为 成 分 缺失 ， 另 外 的 大 约 6 个 点 主要 是 因为 分 类 错误 。 

因为 采用 自动 句法 分 析 器 的 论 元 识别 性 能 的 严重 下 降 ， 有 必要 检查 两 种 技术 以 改进 论 元 
识别 : 结合 不 同 的 句法 表示 的 分 析 结 果 ， 在 相同 的 表示 中 采用 n-best 分 析 或 者 分 析 和 森林 。 
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30 
训练 集中 句子 个 数 (个 ) 


一 一 带 标记 的 召回 率 ( NULL 和 ARG 论 元 ) 
-一 - 带 标记 的 精确 率 (NULL 和 ARG 论 元 ) 
--*-~ 带 标记 的 F 分 值 ( NULL 和 ARG 论 元 ) 
tons 不 带 标记 的 F 分 值 (NULL 对 非 NULL 论 元 ) 


图 4-15 ”基于 宾 州 树 库 的 论 元 分 类 和 论 元 识别 任务 的 学 习 曲 线 


多 视图 ”Pradhan 等 人 [129] 报告 了 解决 给 定 的 句法 分 析 中 论 元 缺失 问题 的 实验 。 
他 们 探讨 如 何 结合 语义 角色 标注 使 用 不 同 的 句法 视图 : 一 种 用 Charniak 分 析 器 [158] 进 
行 训 练 ; 另 一 种 用 Minipar [135] 的 基于 规则 的 依存 分 析 树 ;第 三 种 方法 基于 扁平 的 浅 层 
句法 块 表 示 [159]。 他 们 发 现 ， 这 三 种 视图 互 为 补充 ， 可 提高 性 能 。 

我 们 已 经 讨论 过 的 一 些 系统 使 用 的 特征 是 基于 语法 分 析 器 产生 的 句法 成 分 [149. 
126 ]， 其 他 只 使 用 句法 分 块 程序 所 产生 的 扁平 的 语法 表示 L160, 159, 124]。 后 一 种 方法 
缺少 由 层次 句法 结构 所 提供 的 信息 ， 而 前 一 种 方法 增加 了 一 个 约束 ， 即 可 能 的 候选 角色 必 
须 是 在 语法 树 中 已 经 出 现 的 节点 中 的 一 个 。 虽 然 基于 块 的 系统 是 高 效 和 和 鲁 棒 的 ， 但 使 用 基 
于 完整 语法 分 析 特 征 的 系统 一 般 更 准确 。 对 于 基于 分 析 树 成 分 系统 的 错误 分 析 表 明 ， 分 析 
错误 是 系统 错误 的 主要 原因 。 名 法 分 析 器 经 常 没有 产生 对 应 于 语义 论 元 正确 片段 的 任何 成 
分 。Pradhan 等 [129] 第 一 次 尝试 通过 合并 从 不 同 的 句法 分 析 树 产生 的 语义 角色 标注 来 处 
理 这 个 问题 。 这 种 方法 基于 的 假设 是 不 同 的 句法 分 析 器 可 能 产生 不 同 的 错误 ， 结合 它们 的 
输出 将 可 能 比 任 何 单个 系统 都 有 所 提高 。 这 个 初步 的 尝试 使 用 的 特征 来 自 于 Charniak 分 
析 器 、Minipar 分 析 器 和 基于 块 的 分 析 器 。 它 显示 出 这 些 结合 确实 带 来 了 一 些 提高 ， 但 是 
合并 信息 的 方法 是 启发 式 和 次 优 的 。 研 究 者 提出 了 一 种 结合 不 同 句法 视图 的 改进 框架 ， 目 
标 是 保持 基于 短语 的 分 块 程序 切 分 的 鲁 棒 性 和 灵活 性 ， 同 时 能 够 利用 完整 语法 分 析 树 中 的 
特征 。 他 们 也 想 把 从 不 同 的 句法 分 析 中 得 到 的 特征 进行 组 合 以 得 到 额外 的 鲁 棒 性 。 为 此 ， 
他 们 使 用 从 Charniak 分 析 器 和 Collins 分 析 器 得 到 的 特征 。 结 合 基 于 Minipar 和 基于 Char- 
niak 的 语义 角色 标注 的 好 处 是 能 够 显著 提高 ARGI 的 性 能 ， 而 其 他 的 一 些 论 元 略 有 改善 ， 
参见 图 4-16, 

语义 分 析 的 合并 方式 如 下 : 论 元 的 得 分 转换 为 校准 的 概率 ， 得 分 低 于 阅 值 的 论 元 将 被 
删除 。 每 个 语义 角色 标注 使 用 独自 的 阅 值 。 对 于 剩 下 的 论 元 ， 如 果 任 何 一 组 论 元 重 又 ， 概 
率 最 低 的 将 被 删除 直到 没有 重 倒 为止。 在 基于 块 的 系统 中 ， 一 个 论 元 可 能 包括 若干 块 。 赋 
给 论 元 的 BEGIN 标记 的 概率 被 用 作 形 成 论 元 的 块 序 列 的 概率 。 

整体 框架 是 对 每 个 句法 分 析 树 视图 训练 独立 的 语义 角色 标注 系统 ， 然 后 用 这 些 系统 输 
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图 4-16 ”分 析 错 误导 致 的 论 元 删除 
出 的 论 元 角色 作为 使 用 扁平 句法 视图 的 语义 角色 分 类 器 的 额外 特征 。 基 于 成 分 的 分 类 器 遍 
历 语 法 分 析 树 并 为 每 个 节点 分 类 为 空 (没有 和 角色) 或 者 其 中 的 一 个 语义 角色 。 正 如 我 们 在 
4.5. 2 节 所 看 到 的 ， 基 于 块 的 系统 使 用 IOB 表示 基本 短语 。 成 分 级 的 角色 被 映射 到 分 块 程 
序 的 IOB 表示 。 然 后 这 些 IOB 标记 作为 另外 的 基本 短语 语义 角色 标注 程序 〈 分 块 程序 ) 
的 特征 ， 同 时 作为 分 块 程序 使 用 的 标准 特征 集 的 补充 。n 倍 交 叉 验 证 用 来 训练 基于 成 分 的 
角色 分 类 器 和 基于 块 的 分 类 器 ， 参 见 图 4-17, 





语义 角色 标注 
图 4-17 新 的 体系 结构 


结合 所 有 特征 的 基于 块 的 系统 进行 了 4 次 迭代 训练 。 每 一 次 训练 独立 的 SVM 分 类 器 ， 
使 用 75% 的 训练 数据 。 剩 下 的 25% 的 训练 数据 被 每 一 个 系统 标注 。 该 过 程 迭代 4 次 ， 得 
到 分 块 程 序 的 训练 集 。 当 分 块 程序 训练 完成 , 基于 PSG 和 Minipar 的 语义 角色 标注 系统 用 
所 有 的 数据 重新 训练 。 一 旦 完成 再 训练 ，SVM 为 所 有 的 论 元 训练 begin (B) 和 inside (D 
类 ， 以 及 ouside (0) 类 。 如 图 4-18 所 示 ， 这 种 结构 的 一 个 特别 的 优点 是 ， 得 到 的 最 终 切 
分 并 不 一 定 和 输入 切 分 一 致 。 根 据 提供 的 与 特征 相关 的 信息 ， 分 类 器 能 够 产生 新 的 、 更 好 
的 切 分 。 

这 是 一 种 结合 多 视图 的 方法 。 男 一 个 由 Surdeanu 等 [161] 提出 的 组 合 策略 也 显示 了 
比 用 单一 视图 的 性 能 改进 。 

扩大 搜索 范围 ” 另 一 种 方法 是 用 n-best 分 类 器 [153. 154] 选择 成 分 或 者 通过 压缩 森 


|142| 


143| 


144 


104 BD 理 te 


林 表 示 [162] 扩大 搜索 范围 ， 压 缩 森 林 比 n-best 在 更 大 的 n 上 可 表示 更 多 的 变化 。 通 过 
使 用 分 析 森 林 ， 比 使 用 单个 最 佳 分 析 树 有 1.2 个 点 的 提高 ， 比 使 用 n-best 分 析 树 有 0. 5 Ls 
提高 。 
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图 4-18 用 新 的 体系 结构 进行 分 类 的 例子 


9. 名 词 论 元 

到 现在 为 止 ， 我 们 只 对 一 个 句子 中 动词 谓语 的 论 元 进行 了 识别 和 分 类 。 要 产生 一 个 句 
子 级 的 语义 表示 ， 有 必要 在 一 个 句子 中 找到 其 他 可 
能 为 谓词 的 论 元 ， 如 名 词 谓词 、 形 容 词 谓词 、 介 词 
谓词 。 本 章 讨 论 的 语义 角色 标注 适用 于 名 词 谓词 或 
名 词 化 的 谓词 。 名 词 化 的 定义 是 “把 一 个 动词 转换 ——— 
成 一 个 抽象 化 名 词 的 过 程 ”。 举 个 例子 ， 在 图 4-19 Jotin POC wi] isnt mine — 
WE, OPUS SAI T EBRD iround the university. 
词 化。 注意 在 名 词 化 的 句子 里 ， 动 词 分 别 是 made ie E fy 
和 took。 一 个 分 析 这 些 句 子 并 寻找 这 些 动 词 论 元 的 语义 分 析 器 会 错过 真正 的 事件 ， 即 
complaining 和 walking， 而 这 对 理解 句子 的 意义 十 分 重要 并 且 是 由 名 词 化 的 谓词 complain 
和 walk 分 别 表 示 。 

大 量 有 关 自 动 语 义 角 色 标 注 的 文献 中 ， 很 少 涉及 名 词 的 语义 角色 标注 。 仅 有 的 那么 几 
篇 ， 也 只 处 理 名 词 化 。 然 而 ， 因 为 缺少 带 有 名 词 谓 词 和 相应 论 元 的 标注 语 料 ， 对 能 够 目 动 识 
别 并 标注 名 词 论 元 的 统计 算法 进行 的 研究 很 少 。 据 我 们 所 知 ， 只 有 Hull 与 Gomez [163] 给 
出 的 基于 规则 的 系统 及 Lapata [164] 在 解释 转换 名 词 与 其 周边 修饰 名 词 关 系 的 工作 与 之 
比较 接近 。 随 着 FrameNet 项 目 已 经 提供 的 手工 标注 名 词 化 谓词 的 论 元 信息 的 数据 ， 采 用 
该 数据 进行 自动 识别 名 词 化 谓词 的 可 行 性 实验 可 以 做 了 。 

在 本 节 中 ， 我 们 将 讨论 来 源 于 动词 的 特征 对 于 名 词 的 适应 性 。 大 部 分 适应 是 直接 的 。 
我 们 还 研究 了 利用 这 些 转 换 的 特征 识别 名 词 论 元 的 语义 属性 的 性 能 。 换 句 话 说， 我 们 研究 
了 这 些 特征 在 名 词 论 元 识别 和 分 类 上 有 多 大 作用 。 进 一 步 ， 是 否 存 在 与 名 词 化 相关 的 新 特 
征集 合 ， 且 有 较 好 的 效果 呢 ? 


She complained ‘about the attack 
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以 下 是 Pradhan 等 人 [165] 给 出 的 一 些 新 特征 ， 也 给 出 了 理由 。 其 中 的 一 些 特征 对 
于 一 些 成 分 是 不 存在 的 。 在 这 种 情 部 下， 相关 的 特征 值 被 置 为 UNK。 几 乎 所 有 我 们 为 动 
词 谓词 所 使 用 的 新 特征 ， 除 了 CCG 特征 ， 被 加 入 到 了 基线 系统 。 

中 介 动 词 特征 一 一 文 持 动 词 在 识别 名 词 谓 词 - 论 元 中 起 重要 作用 。 使 用 3 类 中 介 动 词 : 
1) be 动词; 2) Mahi) 〈 一 个 很 小 的 动词 集合 ， 如 make, take, have); 3) 其 他 词性 以 
VB 开始 的 动词 。 对 每 一 类 增加 3 个 特征 : 10 说 明 在 谓词 和 论 元 之 间 动 词 存 在 性 的 一 个 二 
元 特征 ; 2) 词 本 身 作为 一 个 特征 : 3) 在 分 析 树 上 ， 成 分 到 动词 的 路 径 。 下面 的 例子 显示 
了 在 这 些 中 介 动 词 特征 后 面 的 直觉 : 

[ speaker Leapor| makes general | Predicate assertions | | Topic about marriage | 

谓词 的 NP 扩展 规则 一 一 这 是 Gildea fil Jurafsky [113] 提出 的 动词 次 范畴 化 特征 的 名 
词 等 价 物 。 它 代表 了 语法 分 析 需 为 树 中 最 低 的 NP (包含 谓词 ) 实例 化 的 扩展 规则 。 该 特 
征 可 以 把 具有 相似 内 部 结构 的 名 词 短语 聚 类 到 一 起 ， 从 而 有 助 于 找到 论 元 修饰 符 。 

谓词 单 复数 一 一 这 个 二 值 特征 说 明 这 个 谓词 是 单数 或 复数 ， 因 为 单数 或 复数 往往 有 不 
同 的 论 元 选择 属性 。 

成 分 是 否 包 含 所 有 格 一 一 这 是 一 个 二 值 特征 。 如 果 在 成 分 中 有 一 个 所 有 格 的 单词 CA 
有 词性 POS、PRP、PRP$ 或 WP 和 $ 之 一 )， 因 为 这 些 对 名 词 论 元 而 言 ， 往 往 是 主语 或 宾 
语 标记 。 以 下 的 例子 可 以 用 于 澄清 这 个 概念 

[ Speaker Burma’s | [wmwonenon Oil] [Predicate search| hits virgin forests 

支配 谓词 的 动词 谓词 的 第 一 个 VP 祖先 的 中 心 词 。 

最 近 , Jiang 和 Ng [166] 使 用 这 些 特征 在 最 大 炉 的 分 类 器 中 对 NomBank 语 料 进 行 论 
元 标注 。 另 外 ， 在 最 近 的 CoNLL 评测 中 [137, 138], NomBank 论 元 被 加 到 集成 的 句法 
语义 依存 树 中 。 

10. 多 语言 问题 

由 于 早期 的 研究 语义 角色 标注 的 系统 主要 是 在 英语 语料库 中 进行 ， 各 种 核心 特征 和 学 
习 机 制 主 要 是 针对 英语 。 大 部 分 针对 英语 的 核心 特征 能 够 较 好 地 转 到 其 他 语言 L167, 
168]。 但 一 些 专门 特征 对 特定 的 语言 是 重要 的 ， 同 时 也 能 够 提高 英语 系统 的 性 能 。 比 如 
Xue 和 Palmer [127] 介绍 的 针对 中 文 的 谓词 框架 特征 也 能 够 改善 英语 的 性 能 。 一 些 特征 
是 针对 语言 的 ， 从 而 导致 在 英语 中 没有 对 应 特征 。 这 些 特征 对 特定 的 语言 是 唯一 的 。 例 如 
中 文 需要 一 个 更 复杂 的 分 词 过 程 一 一 而 英语 用 一 些 非常 简单 的 算法 就 可 进行 。 因此， 在 中 
文 的 情况 下 必须 训练 特殊 的 分 词 模型 ， 才 可 能 开始 进行 句法 分 析 或 语义 角色 标注 。 

另 一 方面 ,缺乏 形态 的 中 文 模糊 了 动词 、 名 词 、 形 容 词 的 区 别 ， 使 这 些 谓词 和 它们 论 
元 的 形成 了 更 紧密 的 联系 。 这 使 得 对 所 有 类 型 的 谓词 要 训练 一 个 统一 的 模型 。 然 而 ， 中 文 
另 一 个 影响 自动 语义 角色 标注 性 能 的 特点 是 : 中 文 比 英语 有 更 多 的 动词 类 型 一 一 至 少 多 4 
倍 ， 因 此 在 相同 大 小 的 语料库 中 ， 每 个 动词 实例 的 数目 对 中 文 而 言 少 得 多 ， 这 加 重 了 已 经 
存在 的 严重 的 数据 稀 朴 问题 。 同 时 ， 这 意味 着 有 更 少 的 多 义 性 需要 处 理 ， 从 性 能 角度 而 言 
这 倒是 个 不 错 的 性 质 。 创 建 一 个 特定 的 聚 类 特征 ， 在 一 定 程度 上 克服 了 这 个 问题 。 所 以 ， 
在 某 种 意义 上 说 ， 虽 然 一 组 相似 的 特征 对 于 不 同 的 语言 都 有 用 ， 但 在 一 些 具体 的 实例 中 ， 
可 以 有 很 大 的 不 同 ， 每 个 特征 的 相对 好 处 随 着 语言 而 不 同 。Xue [167] 介绍 了 一 些 新 特征 
以 提高 中 文 语义 角色 标注 系统 的 性 能 。 另 一 个 要 注意 的 问题 是 中 文 的 句法 分 析 玫 的 性 能 比 
英语 差 ， 所 以 基于 块 的 浅 层 语法 分 块 [169] 的 结果 与 基于 完整 语义 分 析 的 结果 相 比 也 有 
36 3*7]. 
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与 中 文 相反 ， 阿 拉 伯 语 的 特点 是 其 有 丰富 的 形态 。 这 意味 着 在 分 析 树 中 ， 阿 拉 伯 语 有 
许多 语法 POS 类 ， 这 比 英语 或 者 中 文 几乎 多 一 个 数量 级 。 到 目前 为 止 ， 在 阿拉 伯 语 的 语 
义 角 色 标 注 系 统 的 文献 报道 中 还 没有 利用 其 特定 形态 的 丰富 性 [168]. 

与 英语 的 男 一 个 显著 的 区 别 是 ， 不管 是 阿拉 伯 语 还 是 中 文 都 有 很 多 隐 舍 或 省 略 的 主 
语 。 在 Penn Treebank 上 省 略 成 分 用 “ 迹 ” 来 标记 ， 在 PropBank 中 用 论 元 来 标记 。 和 英 
语 不 同 ， 中 文 和 阿拉 伯 语 要 求 特殊 的 模型 来 训练 识别 省 略 的 主语 ， 才 能 进行 谓词 - 论 元 结 
构 的 完整 识别 。 

11. 跨 体裁 的 鲁 棱 性 

这 些 方法 一 个 可 能 的 缺点 是 ， 所 有 的 训练 都 在 同一 个 宾 州 树 库 上 进行 。 当 在 其 他 的 非 
WS) 语 料 上 评测 时 ， 性 能 将 降低 。Carreras 和 Marquez [171] 显示 在 Brown 语料库 中 的 
性 能 比 在 WS) 测试 语料库 中 的 性 能 下 降 10 个 点 的 下 值 。 在 WS) 语 料 上 进行 训练 和 测试 ， 
语法 分 析 需 的 识别 性 能 是 主要 的 错误 来 源 ， 分 类 性 能 是 相当 好 的 。 但 是 ，Pradhan、Ward 
和 Martin [172] 给 出 了 当 我 们 在 WS 语料库 上 进行 训练 ， 在 Brown 语料库 上 进行 测试 
时 ， 分 类 性 能 和 识别 性 能 都 受到 了 同样 程度 的 影响 。 可 见 需 要 更 多 的 词法 语义 特征 来 弥补 
不 同体 裁 的 语 料 间 的 性 能 差距 。Zapirain [173] 指出 ， 增 加 选择 性 偏好 的 特征 提供 了 一 个 
好 的 词汇 — 语义 泛 化 方法 。 


4.5.3 软件 


下 面 列 出 了 一 些 可 用 的 语义 角色 标注 软件 包 .: 

e ASSERT (Automatic Statistical SEmantic Role Tagger， 自 动 统计 语义 角色 标注 
器 ) [http://www. cemantix. org/assert. html], fE3X X PropBank 数据 基础 上 训 
练 的 语义 角色 标注 工具 。 

e C-ASSERT [http://hlt030. cse. ust. hk/research/Pc-assert |; ASSERT 的 中 文 扩 
展 版 。 

e SwiRL [ http://www. surdeanu. name/mihai/swirl/ ], 53 —^ YE PropBank 基础 上 
训练 的 语义 角色 标注 工具 。 

。 Shalmaneser (A Shallow Semantic Parser， 浅 层 语 义 分 析 器 ) [http://www. coli. 
uni-saarland. de/projects/salsa/shal/]。 基 于 FrameNet 数据 的 浅 层 语义 分 析 工 


具 链 。 


4.6 意义 表示 


我 们 现在 转向 第 三 专题 一 一 更 深层 次 的 语义 解释 ， 其 目标 是 接受 自然 语言 输入 并 将 之 
转换 成 一 个 无 歧义 的 、 可 供 计算 机 进一步 操作 的 表示 。 这 种 形式 对 人 而 言 可 能 是 不 能 理解 
的 ,但 对 机 器 而 言 却 是 可 理解 的 。 一 种 可 以 类 比 的 情况 是 ， 高 级 语言 更 接近 人 类 人 处理 信息 
的 方式 而 低级 语言 代码 则 更 适合 计算 机 执行 。 虽 然 编 译 器 和 解释 器 对 高 级 语言 所 写 的 程序 
强加 了 各 种 特别 的 句法 和 语义 限制 ， 但 自然 语言 可 采取 的 形式 却 没有 强加 这 类 限制 。 为 定 
义 辖 域 并 消除 歧义 ， 人 工 语 言 需要 具有 精确 性 ;而 自然 语言 则 依靠 接收 者 MOAR 
者 ) 利用 上 下 文 以 及 一 般 的 世界 知识 来 实现 消 歧 。 研 究 人 员 已 经 花 了 几 十 年 设法 搞 懂 人 们 
如 何 解 释 、 对 上 下 文 进行 编码 ， 并 使 用 世界 的 知识 ， 以 便 让 机 器 能 毫 不 费力 地 理解 人 类 所 
能 理解 的 东西 。 然 而 ， 还 有 很 长 的 路 要 走 ， 到 目前 为 止 已 开发 的 技术 只 能 用 于 特定 的 领域 
和 问题 ， 还 不 能 扩展 到 任意 领域 。 这 通常 称 为 深层 语义 分 析 (deep semantic parsing)， 与 
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包括 词义 消 卜 、 语 义 角色 标注 的 浅 层 语义 分 析 相 对 。 


46.1 资源 


一 些 项 目 已 创建 了 表示 方式 和 相关 资源 ， 使 得 在 本 领域 可 以 进行 更 多 的 实验 。 让 我 们 
来 看 看 其 中 的 一 些 资源 。 
1. ATIS 


航空 旅游 信息 系统 (Air Travel Information System, ATIS) WA [174] 被 认为 是 最 
早 致 力 于 构建 将 自然 语言 转换 为 终端 应 用 决策 所 需 知 识 表示 的 系统 之 一 ， 尽 管 该 项 目 并 
不 是 很 关注 形式 化 知识 表示 。 该 任务 中 有 一 台 机 器 负责 对 用 户 的 自然 语音 查询 进行 转 
换 ， 该 查询 是 有 关 航 班 信息 并 只 人 允许 使 
用 受 限 词汇 。 然 后 ， 该 知识 表示 被 编译 poc 
为 SQL 查询 ， 并 用 于 从 航班 数据 库 中 提 TIME: 


PART-OF-DAY: 


取 答 案 。 在 编码 中 间 的 语义 信息 时 该 系 鉴 | oRIGIN 

统 使 用 了 一 个 分 层 的 框架 表示 。 图 4-20 E aoe 

显示 了 一 个 用 户 查 询 样本 及 其 相应 的 杠 rc i 

架 表 示 。 训 练 语料库 中 包含 了 137 个 人 DATE: 

完成 的 超过 774 个 场景 ， 共 生成 了 超过 DAY-OF-WEEK: Tuesday 

7300 个 口语 语句 。 所 有 的 语句 都 已 被 转 ne 

录 ， 其 中 的 2900 份 则 被 归 类 并 使 用 规范 | Please show me morning flights from Boston to | 

参考 答案 进行 标注 S ; KA 600 份 被 转换 San Francisco on Tuesday 

KWES, 图 4-20 一 个 用 户 查询 样本 及 其 在 ATIS 程序 中 的 

框架 表示 


2. Communicator 


Communicator 是 ATIS 的 后 续 者 。ATIS 侧重 于 用 户 发 起 的 对 话 (user-initiated dia- 
log), ifj Communicator 则 采用 混合 发 起 对 话 (mixed-initiated dialog)。 所 谓 用 户 发 起 对 话 
指 用 户 提 出 问题 ， 机 器 负责 提供 答案 ; 而 在 混合 发 起 对 话 的 过 程 中 ,计算机 将 提供 实时 航 
空 信息 并 帮助 用 户 一 起 协商 出 首选 行程 。 在 此 期 间 ， 程 序 收集 了 成 千 上 万 的 对 话 。 这 些 对 
话 目前 都 可 以 通过 语言 数据 联盟 (Linguistic Data Consortium, LDC) 获得 。 卡 内 基 一 梅 
隆 天 学 则 收集 更 多 的 数据 ， 其 中 有 一 部 分 可 用 于 研究 号 。 大 约 有 一 百 万 个 词 ， 其 中 约 1600 
个 对 话 标注 了 对 话 行为 号。 


3. GeoQuery 
在 美国 地 理学 领域 ， 有 一 个 被 称 为 Geobase [175 ] 的 地 理 数 据 库 的 自然 语言 接口 
(Natural Language Interface，NLI) 。 该 接口 包含 了 大 约 800 条 Prolog 事实 。 这 些 事实 与 
诸如 人 口 、 邻 国 、 主 要 河流 及 国内 各 大 城市 等 的 地 理 信息 一 起 存放 在 关系 数据 库 中 。 下 面 
是 一 些 查询 样本 及 其 知识 表示 : 
1) What is the capital of the state with the largest population? 
answer (C, (capital (S, C), largest (P, (state (S), population (S, P)))) 


http://www. Idc. upenn. edu/Catalog/CatalogEntry. jsp? catalogld— LDC95826, 
http://www. ldc. upenn. edu/Catalog/CatalogEntry. jsp? catalogld= LDC99T42, 
http://www. speech. cs. cmu. edu/Communicator/Corpus/ 。 

http; //www. lde. upenn. edu/Catalog/CatalogEntry. jsp? catalogld — LDC2002556 , 
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2) What are the major cities in Kansas? 
answer (C, (major (G), city (C), loc (C, S), equal (S, stateid (kansas)))) 
这 就 是 GeoQuery 语 料 ， 也 已 被 翻译 成 日 语 、 西 班 牙 语 和 土耳其 语 。 
4. 机 器 人 人 世界杯: CLang 
HLA IEA (RoboCup, www. robocup. org) 是 由 人 工 智 能 学 界 倡 导 的 国际 赛事 ， 
以 机 右 人 足球 作为 其 领域 。 它 有 一 个 专门 的 形式 语言 一 一 CLang， 该 语言 用 于 对 教练 的 意 
见 进行 编码 ， 使 用 if-then 规则 来 表示 行为 。 下 面 是 本 领域 的 一 个 范例 表示 : 


If the ball is in our penalty area, all our players except player 4 should stay in our half. 





((bpos (penalty-area our)) (do (player-except our 4) (pos (half our)))) 


4.6.2 系统 


正如 我 们 可 以 看 到 的 ， 根 据 终 端 应 用 的 不 同 ， 上 述 这 些 例子 中 的 意思 表示 可 能 是 SQL 
查询 、Prolog 查询 或 特定 领域 的 查询 表示 。 现 在 我 们 来 看 看 将 自然 语言 映射 到 这 类 意义 表 
示 的 各 种 解决 方法 。 

1. 基于 规则 的 方法 

ATIS 和 Communicator 项 目 中 表现 非常 出 色 的 部 分 语义 分 析 系 统 是 基于 规则 的 系统 ， 
为 了 能 更 鲁 棒 地 应 对 语音 识别 错误 ， 他 们 使 用 一 个 基于 手工 制作 语义 文法 的 解释 器 。 其 基 
本 理念 是 ， 句 子 的 传统 句法 解释 比 其 内 含 的 语义 信息 复杂 得 多 ， 因 此 将 句子 中 的 意义 单元 
直接 分 析 为 语义 结构 被 证 明 是 一 个 更 好 的 方法 。 此 外 ， 在 处 理 自 然 语音 时 ， 系 统 则 不 得 不 
考虑 非 语法 的 标志 、 口 吃 、 停 顿 等 现象 。 此 时 ， 词 序 变 得 不 那么 重要 ， 散 落 在 句子 或 话语 
中 的 意义 单位 无 须 按 其 句法 意义 的 次 序 排列 。Ward [176, 177, 178] 的 系统 一 一 Phoenix 
则 使 用 递归 转移 网 络 (Recursive Transition Network, RTN) [179] 和 一 个 手工 制作 的 语 
法 来 提取 层次 框架 结构 ， 并 依据 每 个 新 获得 的 信息 片断 重新 评估 和 调整 这 些 框架 的 值 。 该 
系统 对 自然 语音 输入 的 错误 率 为 13. 2% (语音 识别 词 错误 率 为 4.4%)， 而 对 录音 脚本 输 
入 的 错误 率 则 为 9.3%. 

2. 有 监督 的 方法 

虽然 基于 规则 的 技术 开始 是 比较 容易 构建 ， 也 较 好 地 为 各 种 任务 目标 定制 了 解决 方 
案 。 但 它们 仍 有 几 个 缺点 : D 需要 一 些 前 期 的 努力 创建 规则 ; 2) 时 间 以 及 书写 规则 的 
特殊 需求 通常 将 所 开发 的 系统 限制 到 特定 领域 ; 3) 当 问 题 较 复杂 且 与 领域 无 关 时 ， 这 
类 系统 就 很 难 维护 和 扩展 ; 4) 它们 往往 很 脆弱 。 另 一 种 方法 是 使 用 由 手工 标注 数据 训 
练 而 得 的 统计 模型 。 然 而 ， 统 计 模 型 不 能 被 用 来 处 理 未 知 现 象 ， 除 非 可 以 得 到 一 些 手 工 
注释 的 数据 。 对 ATIS 进行 评估 时 ， 创 建 了 一 些 包含 语义 信息 的 手工 标注 数据 。Schwar- 
tz 等 人 [180] 以 此 为 契机 ， 创建 了 也 许 是 第 一 个 针对 ATIS 领域 的 端 到 端 (end-to-end) 
有 监督 统计 学 习 系 统 。 他 们 的 系统 有 4 个 组 成 部 分 : 1) 语义 分 析 ; 2) 语义 框架 ; 
3) 语 篇 ; 4) 后 端 。 该 系统 使 用 有 监督 的 学 习 方 法 ， 为 提高 监督 系统 性 能 ， 该 系统 结合 
了 一 种 快速 的 训练 数据 扩充 方式 一 一 人 工 干 预 校 验 以 生成 质量 稍 差 但 数量 更 大 的 数据 。 
Miller 等 人 :[181]」 更 详细 地 描述 了 该 算法 。 他们 的 系统 对 整个 测试 集 的 错误 率 是 
14.5% ， 而 在 上 下 文 无 关 的 句子 子 集 上 的 错误 率 则 是 9. 5%。 此 后 ， 还 有 很 多 对 该 模型 
的 改进 ， 比 如 He 和 Young [182]. 

Zelle 和 Mooney [183] 延续 了 现在 通常 所 谓 数 据 库 自然 语言 接口 (Natural Language 
Interface for Databases, NLIDB) 的 研究 ， 将 自然 语言 形式 的 GeoQuery 领域 问题 转换 为 
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Prolog 查询 并 在 Prolog 数据 库 中 检索 答案 。 他 们 介绍 了 一 个 称 为 CHILL (Constructive 
Heuristics Induction for Language Learning. 语言 学 习 的 建构 性 启发 式 归 纳 ) 的 系统 ， 该 
系统 基于 归纳 逻辑 编程 语言 的 关系 学 习 技 术 ， 采 用 移 进 一 归 约 分 析 器 将 输入 句子 映射 为 
Prolog 程序 形式 的 分 析 表 示 。 他 们 首选 的 语义 表示 是 形式 逻辑 而 不 是 SQL。 因 为 一 旦 获 
得 该 语义 表示 ， 就 可 以 很 容易 地 将 它 翻 译 成 其 他 等 价 表 示 形 式 。 他 们 在 不 同 数量 的 查询 上 
测试 了 系统 的 性 能 并 与 名 为 GeoQuery 的 基于 规则 的 系统 对 比 。 这 里 ，GeoQuery 是 和 
Geobase 一 同 发 布 的 系统 。 当 使 用 大 约 175 条 查询 进行 训练 时 ，CHILL 的 性 能 就 和 Geo- 
base 系统 相当 。 而 当 增 加 更 多 的 查询 时 该 系统 就 超越 了 Geobase。 在 对 新 查询 进行 测试 时 
准确 度 达 到 了 84 为 ， 有 时 会 归纳 出 1100 行 Prolog 代码 。 

从 那 时 起 ， 机 器 学 习 和 和 句法 分 析 都 有 了 进展 ， 研 究 人 员 确 定 了 新 的 方法 也 细 化 了 现 有 
方法 。 例 如 ，SCISSOR (集成 语法 和 语义 的 语义 组 合 以 获得 最 佳 表示 ，Semantic Compo- 
sition that Integrates Syntax and Semantics to get Optimal Representation) 系统 使 用 统计 
句法 分 析 器 来 创建 语义 增强 的 分 析 树 (Semantically Augmented Parse Tree, SAPT) 
[184, 185]. SCISSOR 的 训练 包含 3 项 (自然 语言 、SAPT、 意 义 表 示 )， 使 用 了 标准 语 
法 分 析 器 ， 并 用 语义 标签 进行 增强 。 该 系统 接着 使 用 递归 过 程 来 实现 对 树 中 每 个 节点 意义 
表示 的 构建 ， 构 造 过 程 中 则 利用 其 子 节点 信息 。SCISSOR 系统 较 之 前 的 方法 显示 出 了 显 
著 的 性 能 提升 。KRISP (基于 核 的 鲁 棱 解释 语义 分 析 ，Kernel-based Robust Interpretation 
for Semantic Parsing) [186] 使 用 字符 串 核 和 支持 向 量 机 来 改善 底层 学 习 技 术 。WASP 
(基于 词 对 齐 的 语义 分 析 ，Word Alignment-based Semantic Parsing) [187] 将 一 种 激进 的 
方法 引入 语义 分 析 一 一 它 使 用 最 先进 的 机 器 翻译 技术 来 学 习 语 义 分 析 器 。Wong 和 Moo- 
ney 将 意义 表示 语言 看 成 是 自然 语言 的 转化 形式 并 用 GIZA 十 十 来 生成 自然 语言 和 意义 表 
示 语 言 间 的 对 齐 ， 最 后 使 用 同步 CFG (Synchronous CFG, SCFG) 框架 来 将 这 些 对 齐 的 
串 组 合成 完整 的 意义 表示 。SCISSOR Kk WASP 和 KRISP 更 加 准确 一 些 ， 它 们 自己 也 从 
SAPT 中 的 信息 获 益 [188]。KRISP、CHILL 和 WASP 也 都 用 于 学 习 西 班 牙 语 、 土 耳 其 
语 和 日 语 等 语言 的 意义 分 析 器 ， 并 具有 类 似 的 精度 。 还 有 另外 一 种 方法 是 由 Zettlemoyer 和 
Collins 所 提出 的 [189]， 他 们 通过 学 习 概 率 组 合 范畴 语法 (Probabilistic Combinatory Catego- 
rial Grammar, PCCG) 训练 了 一 个 用 于 自然 语言 接口 的 结构 分 类 器 。 分 类 器 基于 对 数 线性 模 
型 ,该 模型 用 于 计算 在 给 定 自然 语言 输入 的 条 件 下 获得 该 句法 和 语义 分 析 的 概率 分 布 。 


4.6.3 ee 


早期 基于 规则 的 系统 并 没有 很 多 可 用 的 软件 程序 ， 下 面 是 一 些 可 供 下 载 的 软件 : 
e WASP [http://www. cs. utexas. edu/ — ml/wasp/ |. 

。 KRISPER [ http://www. cs. utexas. edu/ — ml/krisp/ ]. 

e CHILL [ http://www. cs. utexas. edu/~ml/chill. html]. 


4.7 BSE 


本 章 我 们 通过 各 种 不 同 的 视角 考察 了 语义 分 析 问 题 。 对 于 意义 表示 和 语言 理解 目前 还 
没有 捷径 ， 所 以 ， 多 年 来 ， 研 究 人 员 所 处 理 的 任务 ， 要 么 是 在 领域 相关 的 情况 下 解决 更 大 
问题 中 的 一 部 分 ， 要 么 是 在 非常 受 限 的 领域 中 解决 完整 问题 。 上 述 第 一 种 情形 是 浅 层 语义 
解释 ， 处 理 了 语言 问题 的 4 个 主要 方面 : 结构 歧义 (这 本 质 上 是 语法 问题 ， 因 而 是 单独 一 
章 的 主题 ) 、 词 义 、 实 体 和 事件 识别 以 及 谓词 - 论 元 结构 识别 。 其 中 ， 后 三 个 组 件 已 被 广泛 
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称 为 浅 层 语义 分 析 。 正 如 我 们 已 经 看 到 的 ， 此 过 程 中 语法 起 着 非常 重要 的 作用 ， 并 不 能 完 
全 与 语义 脱离 。 第 二 种 情形 是 深度 分 析 ， 或 称 语义 分 析 ， 包 括 输 入 自然 语言 以 及 将 输入 的 
自然 语言 转换 成 某 个 意思 表示 ， 该 表示 往往 针对 特定 任务 并 能 让 最 终 应 用 无 歧义 地 执行 。 

我 们 了 解 到 ， 所 有 这 些 方法 的 各 种 前 沿 都 取得 了 进展 。 在 该 领域 的 早期 时 代 ， 很 少 有 
手工 标记 语料库 和 成 熟 的 学 习 技 巧 。 即 使 是 现在 ， 针 对 资源 贫乏 的 语言 ， 仍 然 没 有 足够 的 
数据 来 训练 先进 的 学 习 算法 。 在 这 种 情况 下 ， 研 究 人 员 只 能 诉 诸 于 将 领域 信息 编码 人 规则 
系统 ,通常 这 种 系统 只 适用 于 特定 领域 。 对 于 有 足够 人 工 标注 数据 的 语言 ， 更 多 的 统计 方 
法 会 成 为 主导 。 考 虑 到 即使 有 足够 的 标注 ， 数 据 还 是 很 稀疏 〈 要 学 习 语 言 所 有 的 细微 差 
别 ， 任 何 数量 的 人 工 标注 都 不 是 足够 的 )， 研 究 人 员 纷 纷 使 用 半 监 督 或 无 监督 的 方法 ， 后 
者 比 起 有 监督 的 方法 或 基于 规则 方法 而 言 通常 都 是 不 太 准 确 的 。 


4.7.1 ib XB 


js] X. 1H E Ji 1&8 pi RPS. ESR CME Tew 
歧 ， 在 信息 检索 、 语 音 理解 以 及 受 限 领域 的 应 用 中 ， 词 义 消 歧 模块 并 不 是 很 重要 。 然 
而 ， 对 于 处 理 文本 深入 理解 的 应 用 ， 词 义 消 歧 可 能 还 是 至 关 重 要 的 。 这 方面 的 研究 一 开 
始 使 用 字典 中 定义 的 词义 ， 因 为 字典 是 一 开始 的 主要 资源 。 一 般 认 为 ，Lesk 算法 是 第 
一 个 基于 字典 的 词义 消 层 算法 .其 消 歧 过 程 依赖 于 对 给 定单 词 的 语 篇 上 下 文 与 其 字典 注 
释 之 间 重 全 程度 的 计算 。Roget 辞典 的 建立 引导 了 更 多 英语 专用 算法 按 其 中 所 定义 的 类 
别 来 为 词语 分 类 。“ 一 个 语 篇 一 个 词义 ”的 概念 引出 了 一 个 重要 的 半 监 督 算法 : 
Yarowsky 算法 。 随 着 类 似 WordNet 的 更 丰富 的 词典 以 及 和 基于 其 词义 的 标注 语料库 
(SEMCOR) 的 出 现 一 一 有 趣 的 是 ， 与 机 融 学 习 的 进展 同时 一 一 多 数 研 究 人 员 开 始 转 向 
将 它们 用 作 标 准 ， 直 到 后 来 的 研究 表明 WordNet 词义 的 粒度 可 能 过 于 精细 了 。 如 果 连 
人 都 不 能 在 一 定 程 度 上 认同 词义 上 的 区 别 ， 则 更 不 用 指望 机 器 能 做 到 了 。 这 导致 Word- 
Net 词义 被 合并 成 更 粗糙 的 单位 ， 以 便 更 适合 生成 一 致 的 人 类 标注 ， 这 同时 也 提供 了 更 
好 的 、 实 现 高 精度 自动 消 歧 的 方法 。WordNet 仍然 还 是 本 领域 的 重要 资源 ， 该 资源 显著 
地 推进 了 本 领域 的 发 展 ， 最 先进 的 消 歧 系统 还 在 使 用 它 。 

在 另外 一 条 发 展 线 上 ， 随 着 互联 网 的 发 展 及 诸如 维基 百科 等 资源 的 广泛 可 用 (维基 百 
科 已 成 为 一 种 代替 用 标注 资源 )， 利 用 互联 网 资源 成 为 了 主流 的 追求 之 一 。 越 来 越 多 的 语 
言 理解 领域 都 采用 新 颖 的 方式 利用 这 种 资源 。 主 动 学 习 是 另 一 个 发 展 方向 。 虽 然 目 前 可 能 
更 像 是 一 门 艺术 而 不 是 科学 ， 但 它 对 于 积累 词语 标注 一 直 是 非常 有 用 的 ， 这 些 词 要 么 是 罕 
wA URAD 的 且 高 词义 困惑 度 CA X) 的 ,要么 是 由 于 这 样 或 那样 原因 没有 足够 的 标注 
(可 能 的 原因 是 贫乏 资源 语言 ， 但 原因 不 限于 此 [190j)。 对 于 没有 手工 标注 数据 的 语言 ， 
各 种 无 监督 的 方法 被 开发 出 来 ， 其 中 一 些 可 利用 不 同 的 词义 粒度 和 跨 平 行 语 料 的 实例 。 


4. 7.2 谓词 - 论 元 结构 

和 词义 消 歧 不 同 ， 标注 文本 中 话题 角色 的 系统 很 少 是 基于 规则 的 。 随 着 诸如 
FrameNet 和 PropBank 等 标注 了 谓词 - 论 元 结构 的 语料库 的 出 现 ， 促 使 一 个 巨大 的 研究 浪 
潮 聚 焦 到 构建 在 文本 中 标注 这 些 结构 的 系统 ， 主 要 用 于 动词 和 名 词 谓 词 。 在 各 种 句法 框架 
下 引入 了 许多 新 的 特征 ， 其 中 一 些 其 至 不 需 完整 句法 分 析 而 只 诉 诸 于 基本 短语 组 块 (base 
phrase chunk)。 事 实证 明 ， 对 于 存在 树 库 的 体裁 ， 语 法 分 析 还 是 能 起 到 很 大 作用 的 。 词 汇 
化 是 和 语义 结合 较 好 的 句法 表示 ， 但 基于 该 表示 方式 的 语义 角色 标注 右 往 往 会 犯 原先 使 用 
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自 底 向 上 的 方法 可 避免 的 错误 。 此 外 ， 在 第 一 轮 就 使 用 丰富 的 特征 代价 太 高 ， 因 此 ， 先 生成 
n-best 结果 再 使 用 更 全 局 的 特征 集 对 之 进行 重 排序 (reranking) 的 组 合 方法 通常 性 能 更 好 。 
另外 ， 目 顶 向 下 和 目 底 向上 相 结 合 的 方法 由 于 能 同时 整合 各 种 句法 和 非 句 法 信息 ， 因 而 也 能 
提高 性 能 。 目 前 一 个 大 的 瓶颈 问题 是 ， 当 训练 与 测试 语 料 在 文本 体裁 稍微 有 些 不 同 (语法 风 
格 、 词 的 用 法 或 实体 与 事件 结构 等 的 差异 ) 时 ， 系 统 性 能 往往 比 训练 和 测试 语 料 匹 配 时 要 差 
很 多 。 目 前 的 状态 是 ， 句 法 信息 已 被 利用 并 显著 地 有 利于 语义 分 析 ， 但 词汇 和 词义 级 的 泛 化 
还 产 重 缺乏 ， 从 而 使 现 有 的 方法 对 跨 体裁 或 跨 领 域 的 文本 鲁 棒 性 较 低 。 我 们 也 看 到 针对 英语 
(恰好 是 手工 标记 的 语料库 首先 创建 的 语言 开发 的 基础 技术 很 好 地 转移 到 了 其 他 语言 。 当 
然 ， 每 一 个 新 的 语言 都 有 上 自己 的 特质 并 会 导致 一 些 新 特征 的 定义 。 这 些 新 特征 可 能 反 过 来 改 
善 了 原 有 的 英文 系统 。 许 多 标注 工作 正在 全 世界 范围 内 开展 ， 我 们 还 有 很 多 东西 要 学 。 


4.7.3 BMRA 


最 后 ， 我 们 考察 了 意思 表示 问题 。 这 是 一 个 较 少 研究 的 课题 ， 尤 其 针对 路 语言 的 情 
形 。 意 义 表示 是 一 个 转换 过 程 ， 它 将 自然 语言 输入 转换 为 一 种 无 歧义 且 容 易 由 机 咒 或 终端 
应 用 理解 的 格式 ， 机 全 或 终端 应 用 则 可 以 利用 该 输入 执行 某 操作 。 到 目前 为 止 , 没有 一 个 
通用 的 表示 方式 ， 因 此 ， 这 些 系 统 以 及 它们 所 采用 的 表示 方式 往往 是 面向 特定 领域 的 。 

新 的 研究 计划 将 不 断 拓展 现 有 技术 的 可 能 性 ， 并 创造 出 一 些 新 技术 。 有 朝 一 日 ， 我 们 
可 以 利用 这 些 技术 形成 一 个 更 丰富 、 更 深层 次 且 领 域 无 关 的 意义 表示 形式 。 
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5.1 概述 


人 类 语言 技术 的 很 多 应 用 涉及 统计 语言 模型 的 使 用 。 该 模型 给 出 我 们 感 兴 趣 的 语言 词 
序列 的 先 验 概率 。 给 定 字 母 表 或 基本 单元 的 集合 之 和 序列 W= ww wE, BAR 
型 可 以 根据 从 训练 集中 预先 估计 的 参数 ， 计 算 W 的 概率 值 。 最 为 常见 的 之 〈 也 称 为 词汇 
R) 是 包含 在 训练 数据 中 所 有 不 同 词 构成 的 列表 。 然 而 ， 正 如 我 们 将 在 本 章 看 到 的 ， 选 择 

合 语言 模型 定义 的 词 元 是 相当 困难 的 ， 特 别 是 对 非 英语 的 语言 。 

通常 ， 一 个 语言 模型 和 另外 一 个 或 者 多 个 可 预测 的 可 能 词 序 列 的 模型 一 起 使 用 。 在 语 
音 识 别 中 ， 一 个 语音 识别 系统 将 声学 模型 的 分 数 〈 也 可 能 是 其 他 分 数 ， 比 如 发 音 模型 分 
数 ) 和 语言 模型 分 数 融 合 起 来 ， 用 于 对 声音 信号 的 口语 词 序列 进行 解码 打分 。 在 机 器 翻译 
中 ， 语 言 模型 用 于 为 翻译 模型 产生 的 机 器 译文 打分 。 语言 模 型 在 信息 抽取 [1]、 作 者 身份 
识别 [2] 和 文档 分 类 [3] 中 已 经 作为 标准 工具 。 在 其 他 相关 领域 ， 语 言 模型 定义 在 声音 
单元 或 者 孤立 的 文本 字符 上 ， 而 不 是 单词 上 。 其 中 ， 一 种 用 于 语言 识别 的 核心 方法 是 依赖 
于 基于 音 或 音素 构建 的 语言 模型 [4]。 在 光学 字符 识别 中 ,语言 模 型 被 用 于 预测 字符 序列 
L5，6]j。 本 章 我 们 关注 的 是 在 自然 语言 词汇 或 类 词汇 单元 建立 的 语言 模型 ， 我 们 现在 把 用 
空 日 符号 阳 开 的 内 容 作 为 基本 单元 。 在 讨论 特定 语言 产生 的 问题 之 前 ， 比 如 词 形 丰富 的 语 
言 或 者 没有 明显 分 隔 符 的 语言 ， 我 们 首先 提出 了 基本 的 nn 元 模型 方法 来 统计 语言 模型 建 模 
和 一 系列 更 加 高 级 的 建 模 技术 。 本 章 最 后 给 出 了 多 语言 和 跨 语 言 的 语言 模型 方法 。 


5.2 n 元 模型 


由 于 自然 语言 没有 限制 ， 它 允许 词 序 列 无 限 长 ， 因 此 很 长 的 词 序 列 W 的 概率 是 无 法 
直接 进行 计算 的 。P(W) 的 概率 可 以 根据 链 式 规则 分 解 成 各 个 部 分 概率 的 乘积 : 


PCW) = PGo wj) = POGn) || Pw: | wi weww ) (5. 1) 
i=1 


因为 乘积 中 的 每 一 项 仍然 很 难 直 接 计 算 ， 所 以 统计 语言 模型 采用 了 nn 元 近似 ， 这 也 是 
为 什么 它们 被 称 为 n 元 模型 。 它 们 假定 只 有 最 近 的 前 n 一 1 个 词 与 当前 词 的 预测 有 关 ， 而 
在 此 之 前 的 词 就 与 当前 词 不 相关 了 ， 或 者 说 它们 是 等 价 的 。 给 定 这 个 “历史 等 价 类 ”的 假 
设 ， 该 元 模型 可 以 定义 为 ;: 


t 
PO) =~ || Pw; | wii (wis (5, 2) 


t=] 
根据 .” 的 长 度 ， 我 们 可 以 分 别 定 义工 元 (m=). 27 (n=2), 335 (n=3), NF 4 
元 、5 元 等 。 一 个 nn 元 模型 也 称 为 n 一 1 阶 马尔 可 夫 模 型 。 因 为 式 〈5. 2) 的 概率 估计 体现 
了 马尔 可 夫人 假设 ， 当 前 词 只 与 前 面 ”一 1 个 词 有 关 ， 与 其 他 词 无 关 。 


FSF x 


Ww. 


7 Æ 123 


5.3 语言 模型 评价 
在 描述 参数 估计 的 方法 和 基本 n 元 模型 方法 的 各 种 细 化 之 前 ,我们 先 来 谈 谈 一 个 语言 
模型 的 性 能 评价 。 根 据 前 面 给 出 的 定义 ,语言 模型 计算 词 序 列 W 的 概率 。 怎 么 能 够 知道 
一 个 语言 模型 是 否 成 功 佑 计 词 序列 的 概率 呢 ? 一 般 来 说 有 两 个 标准 : 在 保留 的 测试 集 上 语 
言 模 型 的 履 盖 率 和 困惑 度 ， 这 里 测试 集 不 属于 训练 数据 的 一 部 分 。 覆 盖 率 计算 测试 集中 ” 
元 组 在 语言 模型 中 的 比例 。 一 种 特殊 的 情况 是 未 登录 词 率 COut-Of- Vocabulary rate, 
OOV rate), thi 100 RA 1 元 的 覆盖 率 ， 或 者 说 没有 被 语言 模型 覆盖 的 单个 词类 型 的 
比例 。 第 2 个 标准 即 困惑 度 是 一 个 信息 论 的 度量 。 给 定 一 个 离散 的 概率 分 布 模型 p, AR 
度 可 以 定义 为 2 的 指数 次 方 ， 这 里 的 指数 是 p BAN. 
PPL(p) = 2H? — 2-2), pColog pta) (5. 3) 
在 语言 模型 中 ， 我 们 经 常 对 语言 模型 g 在 包含 上 个 词 (rw wew) 的 测试 集 上 的 性 
能 更 加 感 兴趣 。 因 此 语言 模型 的 困惑 度 可 以 定义 为 : 


PPL(p,q) = 280D 一 于 Pw log, ed) i 
或 者 简化 为 : 
97 Dim lot, aw) (5.5) 
其 中 Go). 是 计算 第 ; 个 词 的 概率 ， 如 果 gw) 是 元 概率 ， 该 公式 变 成 了 
gt Quins leg, pw Lu, etw i) (5. 6) 


比较 不 同 的 语言 模型 ， 特 别 是 使 用 不 同方 法 来 把 文本 分 解 为 不 同 的 语言 模型 单元 〈 如 
词 或 者 词素 ) ， 我 们 必须 根据 相同 的 单元 数目 对 困惑 度 归 一 化 ， 这 样 比较 的 结果 才 有 意义 。 

困惑 度 可 以 理解 为 由 当前 词 来 预测 下 一 个 词 时 下 一 个 词 的 可 能 数量 。 如 果 一 个 模型 没 
有 任何 的 预测 能 力 ， 那 么 困惑 度 等 于 词汇 集合 的 大 小 。 相 反 ， 如 果 一 个 模型 有 完美 的 预测 
能 力 ， 则 它 的 困惑 度 为 1。 语 言 模 型 的 研究 主要 是 最 小 化 代表 目标 领域 的 保留 数据 集 
(held-out data set) 的 困惑 度 。 

然而 ， 需 要 注意 的 是 有 时 语言 模型 的 目标 并 不 是 预测 词 序列 的 概率 ， 而 是 用 于 区 分 来 
自 于 诸如 机 器 翻译 系统 或 语音 识别 系统 这 样 的 前 端 系统 产生 的 词 序列 的 “好 ”和 “ 坏 ”。 
在 这 种 情况 下 ， 语 言 模型 需要 为 那些 错误 的 、 不 符合 语法 或 者 无 法 接受 的 词 序列 给 出 一 个 
与 正确 的 序列 相 比 有 最 大 可 区 分 性 的 分 数 。 最 小 化 困惑 度 的 优化 并 不 是 这 里 的 目标 ， 我 们 
将 会 在 5. 6. 3 节 来 讨论 这 个 问题 。 


5.4 参数 估计 


5.4.1 最 大 似 然 估计 和 平滑 
标准 的 n 元 模型 训练 是 采用 最 大 似 然 估计 和 参数 平滑 算法 对 元 概率 进行 估计 。 最 大 
似 然 估计 可 以 通过 简单 的 计算 相对 频率 来 获得 : 


Eo uti loe E ruere (5.7) 


cC wi} 9 Wi—2 ) 

其 中 cQ; wi-1»w;-2) 是 三 元 w;、wi;-1、wi-z 在 训练 集中 出 现 的 次 数 。 很 明显 可 以 发 现 
该 方法 对 没有 出 现在 训练 数据 中 的 词 序列 分 配 了 零 概率 ; 另外 ， 在 训练 集中 出 现 的 词 序列 
的 概率 可 能 会 过 度 人 和 估计。 对 nn 元 中 的 大 概率 进行 前 减 并 将 其 分 配 到 零 概率 的 n 元 组 中 的 处 
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理 过 程 称 为 平滑 。 最 常见 的 平滑 技术 称 为 回 退 (backoff)。 该 方法 将 nn 元 组 的 计算 分 为 两 
RR. —RhiEÉdEUIZESE PROS BUE BS If TT， 另外 一 种 是 在 训练 集中 频次 超过 预 设 的 立 
值 。 对 于 第 一 种 情况 ， 对 n 元 的 最 大 似 然 佑 计 是 用 低 阶 的 nn 一 1 元 的 概率 和 回 退 权重 来 计 
算 的 。 对 于 第 二 种 则 保留 原来 的 最 大 似 然 估计 的 方法 ， 并 用 一 个 打折 因子 将 概率 重新 分 配 
给 低 阶 的 分 布 。 因 此 ， 在 给 定 wii. w 的 情况 下 rw; 的 回 退 概率 Ppo 可 以 根据 下 式 
计算 : 
d.P(w; | wii sw) 3X clc 

Wer tg eee m os reet we FN re 
其 中 cc 是 Cw, wicis wi-2) WHAK. d. 是 高 阶 分 布 的 打折 因子 。 归 一 化 因子 a(w;-1， 
w;-2) 保证 了 整个 分 布 的 和 为 1， 它 可 以 由 下 式 进 行 计 算 


d" Pisces in’ E a | Wi—1 » Wj—2 ) NINE 


nt Zatte aii E aeRO: | wii? 
打折 因子 的 计算 方法 确定 了 平滑 技术 。 众 所 周知 的 技术 包括 Good-Turing, Witten- 
Bell, Kneser-Ney 和 其 他 方法 ， 参见 Chen 和 Goodman [7] 的 详细 描述 以 及 对 不 同 平滑 
技术 的 比较 。 例 如 ， 在 Kneser-Ney 平滑 中 ， 在 概率 估计 之 前 ， 一 个 固定 的 打折 参数 D 被 
应 用 于 原始 nn 元 组 频次 : 
max{c(w; sw i s wiz) — D,0} Ncc. 
Pkw Cw; | wii swi) = Di, 6 Wi Wiz ) (5. 10) 
alwi »wi2) PRN Cwi | wii) 否则 
修正 的 Kneser-Ney 平滑 是 被 广泛 应 用 的 技术 ， 不同 的 打折 因子 Di, Do, Di 被 用 于 
出 现 1 次 、2 次、3 次 或 更 多 的 元 元 组 平滑 。 


nj 
DU =La (5.12) 
Mı 
D-55399 (5 sj 
n2 
D —3—4Y 4 (5. 14) 
n3 


E m, m, EHA I1 次、2 次 、… 的 nn 元 组 。 
另外 一 类 常见 的 语言 模型 平滑 技术 是 线性 插值 模型 [8]。 在 线性 插值 中 ，M 个 模型 通 
过 下 式 进行 融合 : 


| 
Pw; | wii swi-2) = > AsP Gwi | hm) (5. 15) 


mo 
其 中 4 是 特定 模型 的 权重 。 每 个 模型 可 能 使 用 不 同 的 条 件 变 量 ， 比 如 不 同 长 度 的 历史 信息 
或 者 来 自 不 同 数据 集 的 参数 估计 ， 比 如 大 规模 的 通用 领域 数据 或 者 是 小 规模 特定 领域 的 数 
fe (参见 5. 5 节 )。 模 型 的 权重 受到 OKAS 和 之 mm 三 1 的 约束 。 权 重 通过 在 不 同 于 模型 
使 用 的 训练 集 (并且 也 不 是 用 于 最 后 的 评估 或 测试 集 )， 的 保留 的 数据 集 上 最 大 化 对 数 似 然 
(最 小 化 困惑 度 ) 来 进行 估计 。 一 般 通 过 期 望 最 大 化 (Expectation-Maximization，EM ) 
算法 来 实现 [9]. 


5.4.2 贝 叶 斯 参数 估计 


贝 叶 斯 概率 估计 是 男 外 一 种 可 选择 的 参数 估计 方法 ， 模 型 的 参数 被 看 做 是 一 组 受到 先 
验 分 布控 制 的 随机 变量 。 给 定 一 个 训练 样本 S 和 一 组 参数 9，P(9) KARA ON HWA 
fn. FH PO|S) 是 后 验 分 布 ， 可 以 通过 贝 叶 斯 法 则 表示 为 : 


_ PLS | 0)P(0) 
P | S) Uus 


在 语言 模型 中 ， 这 组 参数 是 词 概率 向 量 ， 也 就 是 9 二 (Pl(wi),…;Plwx))，( 其 中 
是 词汇 个 数 )， 或 者 更 一 般 化 ，9 二 《PCvwi hi. ,P(rwg |hi)) 是 一 个 包含 及 个 nn 元 和 给 定 
长 度 为 h 的 历史 信息 的 n 元 模型 。 训 练 样本 S 是 词 序列 wi…w,， 我 们 要 求 在 给 定 先 验 分 
布 和 训练 样本 的 情况 下 对 9 进行 点 估计 。 这 个 可 以 通过 最 大 后 验 (Maximum A Posteriori, 
MAP) 准则 或 者 是 贝 叶 斯 准则 来 实现 。 前 者 是 根据 式 (5. 16〉 找 到 最 大 后 验 概率 : 


gMAP — argmax P(@ | = argmax PCS | 0) P8) (5. 17) 
EQ 0€ 08 


其 中 日 是 9 所 有 可 能 取 值 构成 的 空间 。 贝 叶 斯 准则 找到 在 给 定 样本 S 的 情况 下 估计 9 的 期 
望 值 : 


(5. 16) 


88 = E[6 | S] =| P (6 | S)dg (5.18) 


Ja OPCS | 0) PCa» d0 
(5. 19) 


[pes | WP(0)d0 
假定 先 验 分 布 是 一 个 均匀 人 分布， 那么 对 词 w 的 最 大 后 验 估计 也 就 等 价 于 最 大 似 然 估 
计 ， 而 贝 叶 斯 估计 等 价 于 拉 普 拉 斯 (Laplace) 平滑 的 最 大 似 然 估计 。 


gB Ua EE a (5. 20) 
> (WFK 


对 先 验 分 布 的 不 同 选择 将 产生 不 同 的 估计 函数 。 语 言 模型 中 最 常用 的 先 验 分 布 是 犹 利 
克 雷 (Dirichlet) rg. KA sc 58 418 Je 4 9 23 A B3 25 c App (也 就 是 先 验 和 后 验 分 
布 有 着 相同 的 函数 形式 )。 它 可 以 定义 为 : 


tg dna) - - 
(0) ae D(a yt ig ) Se fe ee tt ee g^ (5. 21) 
P i IT raed x 
Hp rS... e’ ak 是 狄 利克 雷 分 布 的 参数 (或 称 超 参数 ) ， 也 可 以 被 认为 是 
从 一 个 先 验 训练 样本 中 得 到 的 计数 。 在 狄 利克 雷 先 验 下 的 最 大 后 验 估计 是 : 
ry ax ) z 


Tami 

"n jL Coa) k= Sh weet 
Hp m 是 词 & 在 训练 样本 中 出 现 的 次 数 ， 它 的 结果 是 另外 一 个 狄 利克 雷 分 布 ， 参 数 为 欢 十 c。 
P (0| W, a) 的 最 大 后 验 估计 等 价 于 加 m 平滑 的 最 大 似 然 估 计 ， 其 中 m= arl. tg 
是 说 ， 大 小 为 a 一 1 的 伪 计 数 加 到 了 每 一 个 词 (CX n 元 组 ) 的 计数 中 。 超 参数 提供 了 一 
便利 的 方式 来 集成 不 同 的 信息 来 源 ， 可 用 于 语言 模型 的 参数 估计 。 该 方法 在 语言 模型 适应 
中 有 非常 成 功 的 应 用 (例如 [10])， 先 验 通 过 大 规模 领域 外 的 数据 集 来 获得 ， 而 观察 的 频 
次 通过 小 规模 领域 内 的 数据 集 来 计算 。 参 见 5. 5 节 来 获取 贝 叶 斯 语言 模型 适应 的 细节 。 早 


gMAP. = argmax TR o 
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期 对 语言 模型 的 构建 完全 依赖 于 贝 叶 斯 估计 L11j， 其 性 能 比 不 上 用 5.4. 1 节 描 述 的 技术 
估计 得 到 的 标准 元 模型 。 然 而 ， 随 着 最 近 贝 叶 斯 统计 的 发 展 ， 其 他 可 选 模 型 已 经 得 到 了 
发 展 ， 产 生 的 结果 已 经 媲美 用 KKneser-Ney 平滑 的 nn 元 模型 。 这 里 特别 要 说 明 的 是 有 些 模 
型 包含 了 假定 文档 的 潜在 主题 结构 并 用 贝 叶 斯 参数 估计 技术 对 结构 进行 建 模 。 这 类 模型 的 
全 面 讨论 参 见 5. 6. 8 节 。 


5.4.3 大 规模 语言 模型 


近年 来 ， 人 们 对 语言 模型 能 够 适应 于 大 规模 数据 集 变 得 很 感 兴趣 。 每 天 可 用 的 单 语 
语 料 数量 都 在 增加 。 对 于 很 多 语言 ， 模 型 可 以 构建 在 几 十 亿 或 几 万 亿 数 量 级 的 数据 上 。 
语言 模型 对 这 种 规模 数据 集 的 适应 需要 变更 语言 模型 训练 、 存 储 和 集成 到 真实 系统 〈 例 
如 语音 识别 解码 需 ) 的 方式 。 这 也 影响 到 参数 估计 ， 因 为 精确 的 概率 估计 变 得 不 可 行 。 

几 个 站 点 [12, 13] 已 经 提出 了 使 用 分 布 式 方法 来 实现 大 规模 的 语言 模型 建 模 。 它 们 
的 共同 特点 是 整个 语言 模型 的 训练 数据 划分 为 几 个 部 分 ， 并 且 每 一 个 部 分 的 频次 或 概率 分 
别 存储 在 不 同 的 物理 位 置 〈 也 就 是 它们 以 客户 -服务 器 体系 结构 分 布 存 储 在 独立 的 计算 机 
节点 群 中 )。 在 运行 时 ， 客 户 端 能 够 从 一 个 语言 模型 服务 器 上 请 求 获 取 数 据 块 集合 的 统计 
信息 ， 如 此 可 以 实时 产生 概率 估计 (可 能 是 以 插值 的 形式 )。 分 布 式 语言 模型 的 优势 是 它 
能 够 应 付 超大 规模 的 数据 和 大 规模 的 词汇 量 ， 并且 人 允许 数 据 动态 地 加 入 而 不 用 重新 计算 静 
态 的 模型 参数 。 需 要 的 参数 如 元 模型 的 阶 数 或 者 不 同 数据 块 的 混合 使 用 方式 可 以 在 运行 
时 被 选择 或 指定 ， 这 使 得 动态 解码 方法 可 以 被 使 用 。 然 而 分 布 式 方法 的 缺点 是 网 络 请 求 的 
速度 慢 。 

Brants 等 人 [13] 提出 一 种 回 退 的 非 归 一 化 形式 ， 这 种 形式 不 同 于 标准 的 回 退 (参见 
公式 (5. 8))， 因 为 如 果 在 nn 元 组 频次 超过 最 小 国 值 (在 这 里 是 0) 时 ， 它 使 用 原始 的 相对 
频率 估计 而 不 是 打折 概率 。 

"ON dee ee ee (5. 23) 
aS (w; | wii) 否则 

a 参数 对 于 所 有 上 下 文 都 是 固定 的 ， 而 不 依赖 于 低 阶 ”元 组 ， 如 公式 (5.8) 所 示 。 其 
结果 不 再 是 一 个 归 一 化 的 概率 分 布 而 是 一 组 非 归 一 化 分 数 〈 用 S 而 不 是 P 来 标记 概率 )， 
这 组 分 数 和 标准 概率 的 使 用 方式 一 样 。 这 种 方法 的 优点 是 非 归 一 化 分 数 在 分 布 式 框架 下 容 
易 计 算 ， 因 为 不 再 需要 对 所 有 n 元 上 下 文 (保存 在 不 同 的 物理 位 置 因 此 查询 代价 高 ) 求 
和 。 有 趣 的 是 ， 作 者 发 现 该 模型 在 大 规模 数据 上 的 性 能 和 用 标准 的 Kneser-Ney 平滑 训练 
的 模型 几乎 一 样 好 。 

另 一 种 可 行 方 法 是 在 使 用 小 规模 语言 模型 [14, 15] 产生 初次 输出 后 ， 在 第 二 阶段 使 
用 大 规模 分 布 式 语言 模型 进行 重 打分 。 还 有 一 种 方法 是 在 单独 机 器 的 工作 内 存 中 存储 大 规模 
语言 模型 ， 但 是 用 不 精确 的 数据 结构 来 提高 使 用 效率 。 基 于 该 目的 ，Talbot 和 Osborne [16 | 
研究 布 隆 (Bloom) 过 滤器 来 实现 该 目标 。 在 这 种 方法 下 ， 语 料 统 计 信 息 (n 元 频次 ， 上 
下 文 频次 ) 用 高 内 存 效率 、 随 机 数据 结构 〈 一 个 布 隆 过 滤器 ) 这 样 的 量化 方式 来 表示 。 如 
R clws, s Ww) Æ n Tw ewn 的 频次 ， 那 么 量化 频次 qlw rw) 定义 如 下 : 

qlw wn) = 1+ [logre Cwi ron) | (5. 24) 

在 测试 的 时 候 ， 通 过 过 滤器 查询 需要 的 统计 信息 。 给 定量 化 频次 ， 通 过 期 望 频次 来 估 

计 真 实 的 频率 : 


is. ibo 
Ey qp pee (5. 25) 


E| c(w ewn) | gCwi sw 2 
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在 这 种 框架 下 ， 频 率 将 不 会 被 低估 但 是 有 可 能 被 高 估 ， 尽 管 高 估 的 概率 随 着 估计 错误 
的 大 小 以 指数 级 别 下 降 。 该 方法 的 优点 是 尽管 原始 频率 频次 可 能 并 不 准确 ， 但 是 数据 结构 
的 查询 却 很 快 ， 因 此 能 够 使 模型 即时 计算 平滑 概率 。 在 实践 中 ， 基 于 布 隆 过 滤器 的 语言 
型 和 基于 精确 参数 估计 的 语言 模型 在 机 器 翻译 任务 的 性 能 上 很 接近 ， 而 内 存 可 节省 4 一 6 
fi [16]. 

大 规模 语言 模型 建 模 的 总 体 趋势 是 丢弃 前 面部 分 提 到 的 精确 的 参数 估计 ， 支 持 近似 估 
计 。 随 着 搜集 到 的 文本 数据 数目 和 大 小 的 继续 增长 ， 这 种 发 展 趋势 看 起 来 将 会 继续 ， 并 产 
生 更 强 和 更 完善 的 估计 技术 。 | 


5.5 语言 模型 适应 

语言 模型 训练 数据 不 足 是 一 种 常态 ， 特 别 是 将 一 个 语音 或 语言 处 理 系统 迁移 到 新 的 领 
域 、 主 题 或 语言 时 。 基 于 这 种 原因 ， 人 们 对 语言 模型 适应 做 了 很 多 努力 。 也 就 是 说 设计 和 
调整 语言 模型 使 得 在 只 有 少量 训练 数据 可 用 的 情况 下 语言 模型 在 新 的 测试 集 上 表现 得 好 。 

混合 语言 模型 或 者 模型 插值 是 最 常 使 用 的 适应 方法 。 一 般 来 说 ,一 个 本 领域 的 语言 模 
型 可 以 通过 使 用 小 规模 的 本 领域 数据 来 训练 ， 一 个 大 规模 背景 或 通用 模型 可 以 通过 大 规模 
非 本 领域 的 数据 来 训练 。 这 些 模 型 根据 式 (5.150 进行 插值 并 在 小 的 开发 集 上 做 插值 权重 
的 优化 。 上 自然 地 ， 该 方法 可 运用 于 多 个 语言 模型 ， 并 且 已 经 发 展 出 多 种 基本 模型 的 插值 
Urb. 

一 个 流行 的 方法 是 依赖 于 主题 的 语言 模型 适应 。Seymour 和 Rosenfeld [17] 表明 文 
档 首 先 可 根据 很 多 个 不 同 主题 进行 聚 类 ， 对 于 每 一 个 主题 类 可 构建 不 同 的 语言 模型 。 目 标 
模型 则 是 选择 少量 的 、 特 定 主题 相关 的 语言 模型 进行 插值 来 生成 的 。 

一 个 动态 的 适应 语言 模型 可 以 通过 触发 器 (trigger) 模型 来 实现 。 它 的 想法 是 根据 文 
档 的 潜在 主题 、 某 些 词 的 组 合 较 其 他 更 经 常 共 现 。 一 些 词 触发 了 其 他 词 ， 例 如 在 财政 新 闻 
文档 中 词 stock Al market 就 是 如 此 。 潜 在 语义 分 析 (Latent Semantic Analysis, LSA) 
[18] 和 概率 潜在 语义 分 析 (Probabilistic Latent Semantic Analysis, PLSA) [19] 都 已 经 
使 用 [20，21，22]， 这 些 模型 根据 主题 对 词 进行 聚 类 并 用 它们 作为 触发 对 。LSA 最 初 在 
信息 检索 中 被 形式 化 ， 它 用 文档 - 词 的 共 现 矩阵 来 表示 一 组 文档 ， 其 中 行 表示 不 同 的 词 ， 
列表 示 不 同 的 文档 。 和 抢 阵 的 每 一 个 元 素 表 示 词 出 现在 文档 的 频率 〈 可 能 的 权重 )。 对 和 矩阵 
做 奇异 值 分 解 能 够 将 矩阵 映射 到 低 阶 的 连续 向 量 空间 ， 在 该 空间 下 可 以 用 诸如 余弦 距离 的 
方法 来 计算 对 应 的 词 向 量 的 语义 相似 度 。 语 言 模型 可 以 动态 调整 如 下 : 
P Gv; | hid pCw; shi) 

Zh; shi) 
Hp h: 表示 LSA 空间 中 到 词 wi 为 止 的 全 局 文档 历史 ，p EZ — 1 TRADURE RR, APE 
当前 词 和 语义 历史 的 相 容 性 。 其 想法 是 语义 相近 的 词 的 概率 将 会 通过 一 个 因子 被 加 强 ， 该 
因子 与 这 些 词 和 全 局 文档 的 历史 信息 的 相似 度 成 正比 关系 。 触 发 关系 也 能 通过 约束 模型 框 
架 以 约束 的 形式 融和 人 到 语言 模型 中 (例如 ，5. 6.5 节 [23] Wie BARAT (MaxEnt) 模 
型 或 者 5. 6. 3 节 [24] 讨论 到 的 判别 式 语 言 模型 ) 。 

PLSA 扩展 了 基本 的 、 非 概率 的 LSA 模型 ， 它 通过 假设 一 个 使 用 更 加 复杂 的 潜在 类 
别 模型 来 分 解 词 -文档 共 现 矩阵 ， 而 不 是 简单 地 采用 奇异 值 分 解 。 给 定 一 个 潜在 类 别 c 
一 对 词 -文档 共 现 (Cw. dO 的 概率 可 以 表示 为 : 

P(w,d) = PG)PGos| OP Jo = PG)» PCc|a)PGo]c) (5.27) 


PO»; V hihi) = (5. 26) 
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然而 ，PLSA 的 一 个 潜在 问题 是 它 容 易 对 训练 数据 产生 过 拟 合 。 最 近 的 一 个 基于 主题 
的 聚 类 形式 是 潜在 犹 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) [25]， 它 可 以 理解 
为 PLSA 的 正则 化 版 本 。 基 于 LDA 的 主题 模型 和 它 的 扩展 形式 在 5. 6. 8 节 中 讨论 。 

标准 适应 框架 的 进一步 变种 是 无 监督 适应 (unsupervised adaptation) ， 主 要 与 语音 识 
别 应 用 相关 。 除 了 使 用 书写 的 文档 或 者 没有 噪声 的 转录 语音 作为 适应 数据 ， 直 接 使 用 语音 
识别 希 的 输出 结果 也 是 一 种 选择 [26]。 各 种 研究 (比如 [27, 28) 已 经 表明 这 种 方法 能 
够 达到 使 用 没有 噪声 的 转录 信息 获得 的 改进 的 大 约 一 半 的 效果 。 

最 近 ， 使 用 互联 网 资源 作为 额外 的 语言 模型 数据 十 分 常见 。 如 果 特 定 主题 、 领 域 或 语 
言 的 可 用 数据 不 充分 ， 则 可 以 通过 网 络 查询 来 获取 额外 的 领域 相关 数据 。 通 过 预 处理 和 可 
能 的 数据 过 滤 ， 它 们 或 者 加 入 到 已 经 存在 的 数据 池 中 ， 或 者 根据 这 些 网 络 获得 的 数据 直接 
训练 一 个 独立 的 模型 ， 随 后 与 已 存在 的 基线 语言 模型 进行 插值 。[29，30，31，32]」 对 基 
于 这 种 通用 步骤 的 几 种 快速 适应 方法 进行 了 讨论 。 

最 后 ， 人 们 也 研究 了 针对 语言 模型 适应 的 其 他 概率 估计 方法 。 其 中 之 一 就 是 最 大 后 验 
自 适应 法 (maximum a posteriori adaptation) [10]。 这 里 的 计数 分 别 来 自 于 通用 的 领域 外 
(Out-of-Domain, OD) 和 领域 内 (In-Domain, ID)， 这 些 数据 的 综合 如 下 所 示 : 
Cop (wh) © ec pp Cw. À) 

Cop (A) * ec qp (A) 
EP h Aw 分 别 是 历史 和 待 预测 的 词 cop 是 来 自 于 领域 外 的 计数 ， 而 czp 则 是 来 自 领 域内 
的 计数 。s 参数 的 范围 是 0 一 1， 它 表示 分 配给 适应 数据 的 权重 ， 因 为 领域 外 数据 的 数量 一 
般 要 超过 可 用 的 适应 数据 ， 这 两 类 数据 的 贡献 度 可 以 通过 近似 地 设置 e 这 个 参数 来 平衡 ， 
最 大 后 验 和 混合 模型 [33] 的 比较 表明 混合 模型 在 适应 数据 变化 时 没有 最 大 后 验 适 应 的 得 
棒 性 高 。 

尽管 目前 大 量 的 语言 模型 适应 工作 都 是 在 语音 识别 的 背景 下 进行 的 ， 但 有 一 部 分 工作 
则 是 在 机 器 翻译 的 背景 下 进行 的 。 在 Eck. Vogel, Waibel [34] 和 Zhao, Eck, Vogel [35] 的 
工作 中 ， 由 初始 译文 构建 的 查询 将 用 于 从 大 规模 的 目标 语言 数据 语 料 中 选择 一 些 额 外 的 各 
子 作为 附加 的 训练 数据 。 根 据 这 些 数据 构建 的 模型 与 基线 语言 模型 进行 插值 ， 用 来 对 输入 
文本 的 源 语言 句子 再 次 翻译 。 在 5. 8.2 节 中 ， 我 们 还 将 讨论 可 运用 跨 语 言 数 据 用 于 语言 模 
型 适应 的 其 他 技术 。 


5.6 语言 模型 的 类 型 

尽管 到 目前 为 止 统计 语言 模型 中 最 广泛 使 用 的 仍然 是 n 元 模型 ， 但 很 多 其 他 模型 得 到 
了 发 展 并 在 实际 应 用 中 显示 出 了 更 多 的 好 处 。 它 们 经 常 和 元 模型 联合 使 用 ，。 
5.601 基于 类 的 语言 模型 


基于 类 的 语言 模型 [36] 是 解决 语言 模型 数据 稀 玖 的 一 种 简单 方法 。 方 法 首先 根据 目 
动 的 方式 [37] 或 语言 学 标准 将 词 聚 到 不 同 的 类 别 ， 例 如 不 同 的 词性 类 别 。 该 统计 模型 假 
定 在 给 定 当 前 词类 别 的 情况 下 词 条 件 独立 于 其 他 词 。 如 果 ci 是 词 w; 的 类 别 ， 则 一 个 基于 


Pl(w | h) = (5. 28) 


类 的 二 元 模型 可 以 定义 如 下 : 


Pw; | wii) — P3 P wj | ci) plc; | Ci 一 ] swWwi—1 ) Pci] | Wi) (5. 29) 
= 23 P(w; | ci) PCc; | cir) PCcHi | wR) (5. 30) 


c; 1611 


在 这 样 的 假定 下 c; 在 给 定 c;-1 的 条 件 下 独立 于 w;-1。 通 常 一 个 词 只 有 一 个 类 S ”因此 模 
型 可 以 简化 为 : | 


P (wj | Wi ) EA P(w; | ci) PCc; | Cre? (5, 31) 
Goodman [38] 将 上 式 的 分 解 和 下 面 的 模型 做 了 比较 : 
Pw; | ws) ~~ Plur | ce 5c;1) PC; | c2 (5. 32) 


当前 词 不 仅 条 件 依赖 于 当前 词 的 词类 ， 也 依赖 于 前 面 词 的 词类 。 在 North American Busi- 
ness News 语料库 中 (训练 集 的 数据 大 小 在 10 万 个 词 到 28 400 HAR) 的 实验 中 使 用 了 
20 000 个 测试 句子 ， 词 汇 量 为 58 000 个 ， 结 果 表 明 式 (5.32) 的 模型 性 能 更 好 ， 训 练 数 据 
在 10 万 个 词 附近 的 情况 除外 。 基 于 类 的 模型 已 经 成 功 地 降低 了 语言 模型 的 困惑 度 ， 并 对 
各 种 不 同 的 语言 处 理 系统 的 性 能 提升 有 帮助 。 然 而 它们 仍然 需要 和 基于 词 的 语言 模型 进行 
插值 。 


5.62 变 长 语言 模型 


在 标准 的 语言 模型 中 ， 词 汇 单元 根据 简单 的 标准 来 定义 ， 例 如 空格 分 隔 符 。 对 下 一 个 
词 出 现 概率 的 预测 是 基于 固定 长 度 的 历史 信息 〈 除 了 回 退 )， 当 前 已 经 发 展 出 了 该 方法 的 
很 多 变种 ， 旨 在 以 数据 驱动 的 方法 重新 定义 词汇 单元 ， 从 而 产生 了 由 不 固定 个 数 的 基本 单 
元 合并 的 单元 。 这 些 方法 称 之 为 变 长 7 元 模型 。 这 些 模型 面临 的 挑战 除了 要 估计 语言 模型 
的 概率 ， 还 要 在 语言 建 模 单元 中 找到 最 佳 的 词 序 列 voi wo ew 切 分 方法 。Deligne 和 Bim- 
bot [39] 把 词 序列 的 切 分 看 作 是 一 个 隐 变 量 ， 并 使 用 ME 过 程 来 寻找 最 佳 切 分 。 一 个 7 
阶 的 变 长 模型 相 比 于 标准 的 基于 词 的 二 元 模型 在 困惑 度 上 有 轻微 改进 ,但 是 并 没有 说 明 在 
实际 应 用 中 的 效果 。 

一 个 更 简单 的 方法 是 根据 语言 的 标准 书写 法 ， 用 空格 切 分 词 ， 不 重新 分 词 ， 而 是 对 原 
来 分 词 结果 中 的 单元 进行 合并 。 短 语 中 频繁 出 现 的 有 限 个 合并 单元 可 加 入 到 语言 模型 的 词 
汇 表 中 。 一 个 用 于 识别 潜在 短语 候选 单元 的 常用 标准 是 相 邻 词 的 互信 息 (例如 [40])。 短 
语 单元 实际 的 选择 是 使 用 贪心 的 迭代 算法 : 每 一 轮 迭 代 都 选择 那些 能 够 最 大 程度 降低 开发 
语 料 困惑 度 的 候选 词 。 在 Zitouni, Smaili 和 Haton [42] 中 ， 词 类 信息 用 于 识别 候选 短语 
单元 ， 因 为 互信 息 是 在 类 间 而 不 是 在 词 间 进行 计算 的 。 相 比 于 基于 词 的 候选 对 选择 ， 这 种 
方式 能 够 降低 大 约 10% 的 困惑 度 。 该 模型 也 能 在 中 等 规模 法 语 自动 语音 识别 (Automatic 
Speech Recognition, ASR) 任务 上 降低 18% 的 相对 词 错 误 率 。 


5.6.3 判别 式 语 言 模 型 


标准 的 n 元 模型 是 一 个 生成 模型 ， 对 给 定 词 序列 W 分 配 一 个 概率 。 然 而 ， 在 诸如 机 
器 翻译 或 语音 识别 这 样 的 实际 应 用 中 ， 语 言 模型 的 任务 是 将 好 的 句子 译文 和 坏 的 句子 译文 
区 分 开 。 基 于 这 个 原因 ， 判 别 式 的 语言 模型 参数 训练 更 加 适合 ， 这 使 得 不 同 质量 的 词 串 获 
得 最 大 的 区 分 性 概率 人 估计。 最近，Roark 等 [43]. Collins, Saraclar 和 Roark [44], Shaf- 
ran 和 Hall [45] 以 及 Arisoy 等 [46] 对 这 样 的 判别 式 语言 模型 建 模 进 行 了 尝试 。 这 里 ， 语 
言 模型 应 用 在 已 经 存在 的 候选 句子 译文 集合 Y 中 ， 该 集合 是 由 一 些 生 成 函数 GENCI) 对 输 
Ax 《例如 语音 识别 中 的 声音 序列 或 者 是 机 器 翻译 中 的 源 语言 串 ) 产生 的 ， 可 对 于 输入 工 
和 任 一 输出 y€EY， 定 义 任意 的 特征 函数 ， 并 用 于 一 个 全 局 线性 模型 ， 通过 下 述 公式 来 选 


全 ”原文 为 “通常 一 个 类 包含 不 止 一 个 词 ”， 疑 错 。 一 一 译 者 注 。 


130 PFD H we 


择 最 佳 译 文 : 

F(x) = argmax gtt. Ya (5.33) 
其 中 a 是 一 个 权重 向 量 ， 在 最 基础 的 情况 下 ， 特 征 函 数 是 来 自 训 练 数据 的 原始 n 元 组 的 计 
数 。 然 而 ， 模 型 也 可 以 融合 其 他 特征 函数 ， 如 表示 词类 或 者 是 比 词 小 的 单元 的 统计 数据 
(参见 5. 7. 1 F). SAE a 可 以 通过 感知 机 算法 [47] 或 者 条 件 对 数 模型 [43] 来 训 
练 。 感 知 机 算法 迭代 遍历 所 有 训练 样本 (若干 轮 ) 并 为 每 一 个 样本 选择 当前 最 高 分 的 假 
设 ， 如 果 与 正确 的 参考 假设 不 同 ， 就 通过 增加 正确 假设 的 特征 计数 并 减 去 所 选 假设 的 特征 
计数 来 更 新 当前 的 权重 。 此 训练 步骤 直接 对 像 语 言 识 别 系 统 中 的 词 错 误 率 这 样 的 目标 函数 
最 小 化 。 如 此 ， 通 过 优化 系统 性 能 而 不 是 最 小 化 5. 3 节 所 提 到 的 困惑 度 来 对 最 终 模型 的 不 
同 革 元 特征 的 权重 进行 调整 。Roark、Saraclar 和 Collins [48] 说明 在 大 词汇 量 语音 识别 
任务 中 单 遍 解码 降低 1. 8% 的 词 错误 率 (从 39.2% 到 37.4%), 在 多 遍 解 码 识 别 器 中 降低 
HERR O. 9%。 最 近 ， 判 别 式 语言 模型 已 经 应 用 在 统计 机 器 翻译 中 [49]， 相 比 于 最 新 的 
基线 系统 有 1 一 2 个 点 BLEU 值 的 改进 。 就 如 我 们 看 到 的 ， 判 别 式 语言 模型 也 提供 了 一 种 
方便 的 方法 来 融合 额外 的 语言 学 信息 ， 比 如 形态 学 特征 。 


5.6.4 基于 句法 的 语言 模型 


n 元 语言 模型 一 个 众所周知 的 缺点 是 它 不 能 考虑 最 近 前 nn 一 1 个 词 之 外 的 历史 信息 。 
然而 ， 长 距离 依存 现象 在 自然 语言 中 普遍 存在 ， 当 前 词 的 选择 依赖 于 距离 句子 位 置 很 远 的 
词 。 在 下 面 的 例子 中 ， 复 数 名 词 Investors 触发 了 复数 动词 were, 但 是 n 元 模型 在 这 种 情 
况 下 没有 将 其 作为 条 件 变量 而 是 忽略 了 ， 这 里 的 nn 一般 不 超过 4 或 者 5。 

Investors. who still showed confidence in financial markets last week , were responsible for 
today's downturn. 

为 了 解决 这 个 问题 ， 研 究 者 们 提出 了 几 种 基于 句法 的 语言 模型 方法 ， 它 们 的 目标 是 对 
句法 关系 进行 直接 建 模 ， 并 利用 它们 提高 概率 估计 的 准确 度 。 大 多 数 这 些 方 法 使 用 统计 各 
法 分 析 器 构建 一 个 句子 的 句法 表示 S， 并 且 定 义 一 个 融合 S 的 概率 模型 。Chelba 和 Jelinek 
的 结构 语言 模型 [50] 计算 了 一 个 词 序 列 和 它 的 句法 分 析 S 的 联合 概率 PC(W，S)， 并 将 
其 分 解 为 部 件 概率 的 乘积 ， 这 些 部 分 涉及 词 序 列 的 不 同 元 素 、 句 法 结构 的 头 节 点 和 句法 结 
构 的 词性 标记 。 在 [50] 中 的 结果 表明 集成 与 3 元 模型 结合 的 结构 语言 模型 能 够 在 华尔街 
日 报 连续 语音 识别 (Continuous Speech Recognition, CSR) 和 Switchboard 语 料 上 使 困惑 
度 降低 8% 。 在 语音 识别 系统 中 使 用 词 图 重 打分 技术 能 够 使 华尔街 日 报 语 料 的 困惑 度 下 降 
6%， 并 在 Switchboard 语 料 上 下 降 0. 5% (从 41. 1268] 40.6%). 

Wang 和 Harper [51] 提出 了 另外 一 种 “almost-parsing” 语 言 模 型 (也 称 为 Super- 
ARV 模型 ) ， 该 模型 基于 带 依存 限制 的 语法 。 这 里 ， 句 子 使 用 SuperARV 模型 来 进行 标 
注 ， 它 包含 丰富 的 标记 组 合 了 词 〈 词 典 中 的 实体 ) 的 词汇 化 特征 和 句法 信息 。 词 序列 和 标 
记 序 列 的 一 个 联合 语言 模型 (SuperARYV 语言 模型 ) 可 定义 如 下 : 


N 
P(tw 9*** ,TN oti 9*** tn) = [| Pew; | Wy *** s TOi fh scafi) (5. 34) 


i=] 


N 
= [[ P&i | wi 0 PG [wi wi nti) (5. 35) 


N 
A ll P(t; | Wi—2 »Ui-1 sti—1 »t;-1 ) PCw; | wi-2 sb »£;-2 2-1) X9. 30) 
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通过 对 高 阶 和 低 阶 模型 的 递归 线性 差 值 来 实现 模型 的 平滑 。SuperARYV 模型 在 华尔街 
日 报 宾 州 树 库 和 CSR 任务 中 进行 测试 ， 并 且 和 其 他 基于 和 句法 分 析 的 语言 模型 进行 比较 ， 
包括 前 面 提 到 的 结构 语言 模型 、 标 准 的 三 元 模型 和 基于 词性 的 模型 ， 结 果 表 明 SuperARV 
模型 困惑 度 分 数 最 低 。 在 CSR 任务 中 SuperARV 模型 使 用 词 图 重 打分 使 词 错 误 率 相对 下 
降 了 3.1% 一 13.5% ， 再 一 次 超过 了 其 他 的 模型 。 


5.6.5 B8 XB tx 
基于 最 大 似 然 估计 的 语言 模型 的 缺点 之 一 是 语言 模型 参数 估计 仅 来 源 于 训练 集 数 据 ， 
这 使 得 这 种 估计 受训 练 数据 的 影响 太 大 。 最 大 信 模 型 给 出 了 另外 一 种 思路 使 得 这 种 限制 变 


得 更 缓和 一 些 。 最 大 信 建 模 不 是 根据 训练 数据 的 ”元 频次 来 计算 它 的 概率 〈 可 进行 平滑 )， 
而 是 认为 模型 预测 的 频次 平均 等 同 于 事件 发 生 的 观察 次 数 。 最 大 炉 模 型 的 公式 如 下 所 示 : 


u p 
Ply | x) = ZG) PC DNrf Ges») (5. 37) 


其 中 f(x，y) 是 在 输入 和 预测 变量 中 定义 的 特征 函数 ,4 是 特征 函数 的 权重 ，Z(Cz) 是 一 
个 归 一 化 因子 ， 根 据 下 式 计算 : 


Z(z)-— »'exp( P Aalay) (5. 38) 
yEY k 
一 且 合 适 的 特征 函数 已 经 定义 ， 那 么 fi 的 期 望 值 就 是 : 
Elis 二 | Sz) pls! 2) fie.) (5. 39) 
r€X,ycY 
其 中 F(x) 是 工 在 训练 数据 中 的 经 验 分布 。fis 的 经 验 期 望 〈 来 自 于 训练 数据 ) A: 
ECAy = OU Cr yz DD (5. 40) 
r€X,ycY 


模型 训练 使 得 期 望 值 与 经 验 期 望 值 相等 ， 并 同时 最 大 化 p(y | z) DH. KRSM OE 
大 化 训练 数据 的 条 件 对 数 似 然 率 。 
E(fa) = ECGfi o VE (5.41) 
Rosenfeld [52] REHRARER MAPS RR, AAR RMHP, yK 
示 预 测 词 ，z 表示 历史 信息 ， 或 者 更 一 般 地 说 ，zZ 是 用 于 预测 的 条 件 变量 。 注 意 到 在 这 种 
情况 下 ， 一 个 比 最 近 的 前 ”一 1 个 词 更 大 的 上 下 文 可 能 允许 被 包含 进来 ， 特 征 函 数 可 以 年 
义 在 整个 句子 [53] 或 者 甚至 更 大 的 范围 中 。 通 常 来 讲 特征 函数 可 以 简单 地 定义 在 寻 元 组 
上 ， 例 如 给 定 词 w; 和 历史 h;， 则 一 个 二 元 特征 函数 就 定义 如 下 : 
l XR hig w, 中 且 wi = wr 
fw ww, Chi wi) = 0 否则 (5. 42) 
模型 的 训练 可 以 使 用 迭代 的 方法 ， 比 如 广义 迭代 演算 (generalized iterative scaling) [54 | 
或 改进 的 迭代 演算 (improved iterative scaling) [55], 或 更 快 的 伪 牛 顿 方法 (quasi-new- 
ton approach) (参见 [56])。 然 而 ， 最 大 业 语 言 模型 的 训练 需要 大 量 的 计算 ， 原 则 上 公式 
(5.38) 中 的 归 一 化 因子 需要 计算 所 有 不 同 的 x 值 ， 特 征 期 望 的 计算 要 求 定义 特征 的 所 有 
(x, y) 对 进行 求 和 。Wu 和 Khudanpur [57] 提出 了 高 效 的 训练 方法 使 得 训练 速度 得 到 
相当 大 的 提高 。 首 先 ， 根据 词 是 否 受 边缘 或 条 件 限制 进行 划分 ， 并 且 在 两 个 集合 中 分 别 计 
算 归 一 化 因子 的 和 。 其 次 ， 在 重复 使 用 部 分 求 和 (比如 以 相同 后 缀 结尾 的 历史 )〉 时 提出 了 
层次 的 归 一 化 算法 。 这 样 使 得 速度 提高 了 15—30 fii. 
最 大 信 模 型 另外 一 个 潜在 的 问题 是 它 容 易 出 现 过 拟 合 ， 特 别 是 使 用 了 大 量 与 样本 数目 
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有 关 的 特征 函数 时 。 该 问题 可 能 的 解决 方案 是 特征 选择 [58]、 正 则 化 [159j， 或 者 是 向 特 
征 函 数 引 入 先 验 值 ， 例 如 Chen 和 Rosenfeld [59] 提出 了 使 用 高 斯 先 验 ， 该 方法 并 不 是 简 
单 的 最 大 化 训练 数据 的 条 件 对 数 似 然 率 ， 


M 
argmax ? ,logP, Cy; | xi) (5. 43) 
i=] 


而 是 最 大 化 条 件 对 数 似 然 cp adeps ae 


argmax > log s(x Lax II x Lm" xp (4) (5. 44) 


HB of 是 第 & 个 高 斯 变量 的 方差 。Goodman [60] 建议 使 用 指数 先 验 作为 一 个 可 选项 ， 
有 时 可 以 获得 更 好 的 性 能 。 

Wu fil Khudanpur [61] 表明 了 在 Switchboard {£4 _E Xt RARA R A E 
的 结果 ， 这 里 的 Switchboard 任务 引入 了 主题 限制 。 模 型 使 困惑 度 下 降 了 7%. 4a et il BH 
误 率 下 降 了 0.776 (从 38.5% 3 37.8%)。 单 独 集 成 句法 限制 可 以 使 困惑 度 下 降 7%， 词 
错误 率 下 降 0. 8%。 联 合 这 两 种 类 型 的 限制 表明 性 能 有 相 加 的 效果 ， 困 惑 度 下 降 了 12%， 
绝对 词 错误 率 下 降 了 1. 3%%。 


5. 6.6 因子 化 语言 模型 

因子 化 语言 模型 (Factored Language Model, FLM) 的 方法 [62, 63] 建立 在 如 下 
观察 的 基础 上 : 词 的 预测 依赖 于 前 面 词 的 表层 形式 ， 通 过 考虑 增加 诸如 词 的 词性 或 形态 类 
别 等 额外 信息 可 以 使 得 模型 具有 更 好 的 泛 化 能 力 。 特 别 是 ， 我 们 可 能 无 法 用 ?元 频次 估计 
给 定 双 一 1 的 情况 下 w: 的 概率 ， 但 如 果 知 道 词 w;-1 属 于 特定 的 类 别 ,， 假设 属于 限定 词 
(determiner)， 就 可 以 对 P(w; | determiner) 获得 一 个 好 的 概率 估计 。 这 使 我 们 想起 前 面 
章节 提 到 的 基于 类 的 模型 。 然 而 ，FLM 通过 泛 化 回 退 策略 将 很 多 这 样 基 于 类 的 估计 联合 
起 来 并 进行 层次 结构 化 。FLM 假定 每 个 词 都 有 一 个 因子 化 表示 形式 ， 即 词 由 特征 向 量 而 
不 是 单独 的 表面 形式 来 表示 。 也 就 是 三 三 户 .K， 一 个 例子 如 下 : 


WORD: Stock prices are rising 
STEM; Stock price be rise 
TAG; Nsg N3pl V3pl Vpart 


词 的 表面 形式 可 以 是 其 中 的 一 个 特征 。 在 这 种 表达 方式 下 统计 模型 可 以 定义 如 下 
(使 用 三 元 估计 ): 


Pf ff) Be ITe(A Ry gb ees FEE ) (5. 45) 
因此 ， 每 个 词 不 仅 依赖 于 按时 间 排 列 的 词 变 量 的 单个 数据 流 ， 也 依赖 于 同时 出 现 的 特征 


变量 。 


在 标准 回 退 的 定义 中 (公式 (5. 8))， 模 型 从 高 阶 回 退 到 低 阶 分 布 。 在 FLM 中 ， 回 退 过 程 
则 不 是 那么 直接 明显 ， 因 为 条 件 变 量 不 仅 包含 词 序 列 ， 也 包含 了 出 现 的 平行 特征 。 因 此 ， 我 们 
需要 确定 哪个 特征 子 集 可 以 向 它 的 低 阶 回 退 。 原 则 上 有 几 种 不 同 的 方式 来 选择 回 退路 径 : 

1) 基于 语言 学 知识 选择 一 个 固定 预定 义 的 回 退 路 径 《〈 例 如 先 用 形态 学 特征 ， 后 用 名 
法 特征 ) 。 

2) 在 运行 时 基于 统计 标准 选择 路 径 。 

3) 选择 多 个 路 径 并 融合 它们 的 概率 估计 。 


(这 里 以 三 元 来 说 明 ) 


py 


dP Cf | fi f2) 
Paso $2) = 
pao d fel la alfisfodg fs fi s f2) 
Ej x. (5 8) FE 4p] , CE Cr. Sis f2) 的 频次 TX f. | wy 
X gf. fis 
PsoCf | f 


arco 


值 、 加 权 均 值 、 乘 积 或 最 大 化 函数 。 例 如 ， 均 值 函 数 可 以 利用 单独 的 估计 
Émean Cf fi ra = 0.5 Po Cf | fi) 4-0. 5BPso Cf | fe) 
除了 对 g 可 以 有 不 同 选择 ， 回 退 图 中 的 不 同 层 可 以 选择 不 同 的 折扣 参数 

言 模型 建 模 工作 。 因 为 可 能 的 因子 化 语言 模型 结构 空间 和 回 退 参数 空间 都 很 大 
了 基于 遗传 算法 的 FLM 自动 最 优化 方法 。 


话 人 语言 建 模 [66] 


对 话 行为 标注 [67] 和 语音 识别 L68, 63] 中， 特别 是 一 些 数 据 稀 
5.6.7 其 他 基于 树 的 语言 模型 


另外 几 种 语言 建 模 方法 利用 树 结构 ， 例 如 其 中 一 种 是 Zitouni [69] 提出 的 基于 层次 
类 的 回 退 模型 。 这 里 回 退 过 程 是 按照 词类 的 层次 树 形 结构 来 完成 的 ， 其 中 越 绯 近 树 的 顶 
端 ， 类 别 越 抽 象 ， 越 靠近 树 的 底部 ， 类 别 越 明 确 。 回 退 过 程 沿 看 类 层次 以 目 奔 同上 方式 进 
也 就 是 说 ， 比 起 抽象 类 别 ， 优 先 考 虑 更 为 具体 的 回 退 类 别 。 与 FLM 的 主要 不 同 点 是 
回 退路 径 是 固定 和 预先 定义 的 ， 然 而 FLM 允许 合并 回 退 图 中 不 同 路 径 的 概率 估计 以 及 运 


JL EU IG 
行 时 进行 路 径 的 动态 选择 。Zitouni 发 现 当 测试 集 包 含 大 量 之 前 未 出 现 事 件 时 ， 基 于 层次 
类 的 语言 模型 的 作用 最 大 : 在 语音 识别 的 语言 建 模 任务 中 ， 当 词汇 量 为 5000 时 ， 未 出 现 


BRAK) 


词 的 困惑 度 下 降 10% ， 然 而 在 词汇 量 为 20 000 时 ， 其 困惑 度 则 下 降 了 26%， 词 错误 率 下 
18 000 个 词 ) 中 ,该 模型 相 比 与 标准 的 nn 元 模型 ， 降 低 了 8 %0 RI PEIRA BE s 而 相 比 与 Zitouni 


MET 12%. Wang 和 Vergyri [70」 提 出 了 对 该 层次 类 的 n 元 语言 模型 做 了 一 些 扩展 。 具 
体 地 说 ， 把 词性 信息 加 入 到 词 聚 类 的 过 程 ， 根 据 不 同 的 词性 种 类 ， 层 次 类 树 结构 被 分 开 定 
义 。 在 埃及 口音 阿拉 伯 语 (Egyptian Colloquial Arabic) 语音 识别 任务 〈 其 中 测试 集 包 含 
[69] 提出 的 模型 ， 降 低 了 3% 的 困惑 度 。 


随机 森林 语言 模型 (Radom Forest Language Model, RFLM) 由 Xu 和 Jelinek 提出 
[71]， 该 模型 对 训练 集 数据 中 所 有 的 词 历 史 信 息 看 做 是 一 个 随机 增长 的 决策 树 集合 (随机 
决策 树 的 节点 与 历史 集合 有 关 ， 根 节点 包含 所 有 的 历史 信息 。 根据 词 在 历史 信息 

中 特定 位 置 的 身份 ， 树 将 历史 集合 分 成 两 个 子 集 ， 实 现 树 的 增长 。 在 所 有 可 能 的 分 割 方式 
中 ， 我 们 选择 最 大 化 训练 数据 的 对 数 似 然 率 的 分 割 方式 。 采 取 两 种 措施 回 该 过 程 引 和 随机 


o H 
VE. 首先 父亲 节点 的 历史 集合 最 初 被 随机 分 配给 两 个 子 节点 ， 其 次 用 于 对 数 似 然 率 测试 的 
分 割 方式 也 是 随机 选择 的 。 在 增长 过 程 结束 之 后 ,决策 树 中 的 每 一 个 叶子 节操 都 可 以 看 做 


否则 

fo) 是 最 大 似 然 估计 

是 计数 的 闽 值 ，wx( 户 ， 户 ) 是 归 一 化 因子 〈 它 保证 了 产生 的 分 数 满足 概率 分 布 要 求 ) 
FIZ (OE 7 GRP. ge WES. fi 


. PN 
fo) 决定 了 回 退 策 略 。 在 典型 的 回 退 过 程 中 ， 函 数 gCF， 户 ，P) 等 价 于 
.gn[E fo WHERE BR. np AE H 2j 
我 们 没有 先 验 知识 知道 哪 一 种 回 退 策略 有 明显 优势 ， 最 佳 的 策略 高 度 依赖 于 特定 的 语 
i — 
的 方式 是 使 用 自动 的 、 数 据 驱 动 的 方法 来 找到 最 佳 的 设置 。Duh 和 Kirchhoff [64] 提出 


FLM 已 经 作为 被 广泛 使 用 的 SRILM (Stanford Research Institute Language Model- 


一 种 可 到 
ing 工具 包 [65] 的 一 个 新 增 功能 ， 并 且 成 功 地 应 用 在 基于 词素 的 语言 模型 [62]、 多 说 
踊 的 应 用 场景 。 例 如 ， 高 度 屈折 变化 的 语言 建 模 (参见 5.7.2 节 ) 


zz 
第 三 种 选择 称 为 平行 回 退 (parallel backoff) ， 它 通过 一 个 新 的 泛 化 回 退 函数 来 实现 
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(5. 46) 


下 


(5. 47) 
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是 类 似 词 历史 信息 聚 成 的 等 价 类 。 等 价 类 在 这 里 不 再 是 根据 最 近 的 ”一 1 个 词 来 定义 (如 
传统 的 ”元 模型 )， 而 是 基于 历史 信息 中 词 的 从 属 关 系 集合 来 定义 的 。 

具体 实现 中 ， 决 策 树 的 生成 过 程 需要 运行 多 次 ， 每 一 次 运行 产生 的 决策 树 会 加 入 到 随 
机 森林 中 。 假 设 我 们 获得 了 M 棵 决策 树 ， 则 RFLM 的 概率 就 是 每 一 个 独立 的 决策 树 概 率 
的 平均 值 : 


M 
Prr (wi | wntl s**t) = x; 2, Por, Cwi | dor, Cwi-nti st wii) (5. 48) 
j=l 


这 里 gor 是 第 j 个 函数 ， 它 将 历史 wiit, cns wi fA BRAD j 棵 决策 树 的 叶子 
节点 。 决 策 树 M 的 数量 一 般 从 几 十 个 到 几 百 个 。 在 华尔街 日 报 语料库 的 宾 州 树 库 部 分 上 
的 测试 结果 表明 ， 使 用 随机 森林 的 三 元 语言 模型 的 困惑 度 和 词 错 误 率 相 比 于 使 用 Kneser- 
Ney 插值 平滑 的 三 元 语言 模型 降低 了 10.6% 。 然 而 ， 将 RFLM 和 Kneser-Ney 模型 进行 插 
值 没 有 使 困惑 度 进一步 改善 。 用 RFLM 的 n-best 列表 重 打分 的 方法 在 华尔街 日 报 DAR- 
PA’ 93 HUBI 基准 任务 中 使 相对 词 错 误 率 改进 了 11% 。 从 这 以 后 ，RFLM 一 直 应 用 于 结 
构 语 言 建 模 [71] ABER [72] 中 。 在 多 语言 建 模 中 ， 该 技术 也 应 用 于 形态 丰富 的 语 
PR (2H S.7.101*)., 


5.6.8 基于 主题 的 贝 叶 斯 语言 模型 


最 近 统 计 语 言 建 模 的 一 个 明显 的 趋势 是 对 文档 的 潜在 主题 结构 进行 贝 叶 斯 建 模 。 该 类 
最 早 的 潜在 狄 利克 雷 分配 (LDA) 模型 是 由 Blei、Ng #l Jordan [25] 提出 的 。LDA 模型 
假定 一 个 文档 有 K 个 主题 构成 ， 它 们 标记 为 mis ，…，zKk。 每 个 主题 根据 该 主题 下 的 词 分 
布 来 生成 词 (也 就 是 用 词 袋 子 模型 对 主题 进行 建 模 ; KAZE nA). E kS, …,， K 
下 的 词 概率 向 量 用 qe 来 表示 ， 每 一 个 主题 有 一 个 先 验 概率 ， 用 4 表示 。 主 题 分 布 的 狄 利 克 
TER O. k, = 0k 受 超 参 数 ars os ak 控制 (参见 5. 4. 2 节 对 狄 利克 雷 分 布 的 解释 ): 


r( diet) K 

aT OT (5. 49) 
Hu i 
这 种 方法 下 的 生成 模型 是 由 犹 利克 雷 分 布 采 样 生成 的 先 验 91 ，0。，…，0k 的 集合 。 给 


定 的 主题 zk 以 概率 O 来 选择 ， 词 w 在 该 主题 下 则 以 概率 $4(w) 来 选择 。 文 档 包含 t 个 
词 构成 的 序列 WW， 其 概率 计算 如 下 : 


pW | arg) = [oC | a( 


LDA 面临 的 主要 挑战 是 无 法 通过 精确 的 推导 计算 潜在 变量 9 和 z 的 后 验 分 布 p (9， 
z|W,a,$)。 一 般 采 用 像 马 尔 可 夫 链 蒙特 卡 罗 (Markov chain Monte Carlo) (例如 | 73 ]) 
或 变 分 推理 (variational inference) [25] 之 类 的 采样 技术 来 实现 。 

因为 LDA 模型 是 一 个 一 元 模型 ， 它 在 具体 的 应 用 中 需要 和 一 个 n 元 模型 组 合 。Wang 等 
[74] 将 LDA 和 一 个 三 元 模型 、 一 个 概率 上 下 文 无 关 文法 进行 组 合 ， 在 华尔街 日 报 语 料 中 与 
用 Kneser-Ney 平滑 的 三 元 模型 相 比 ， 困 惑 度 下 降 926— 2376, Hsu 和 Glass [75] 采用 LDA 
和 隐 马 尔 可 夫 模 型 结合 用 于 口语 演讲 识别 任务 。 在 一 个 已 经 适应 的 三 元 模型 上 ， 结 合 LDA 
模型 提供 的 主题 标签 所 训练 的 语言 模型 ， 困 惑 度 可 降低 16. 1% ， 词 错误 率 减 少 2. 4 。 

LDA 模型 已 经 有 很 多 种 不 同 的 扩展 。 第 一 ，LDA 可 以 推广 到 利用 狄 利 死 雷 过 程 
[76]， 这 是 非 参 数 化 的 先 验 模型 ， 可 以 处 理 无 限 个 主题 。 因 此 不 假定 固定 的 K 个 主题 ， 


PC »*** Oe) = 


t 


Dp (zi | 0 pCuoi | zisg) )dó (5. 50) 
yr 


i 
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其 主题 数目 可 以 根据 训练 数据 的 属性 来 调整 。 第 二 ， 潜 在 的 主题 变量 可 以 层次 结构 化 ， 每 
一 个 主题 可 以 包含 大 干 个 子 主题 ， 不 同 的 数据 组 可 以 共享 同一 个 主题 。 这 些 通 过 层次 狄 利 
w fa wt F (Hierarchical Dirichlet Process, HDP)[77] 来 建 模 。Huang 和 Renals 利用 
HDP 将 主题 和 参与 者 角色 集成 到 语言 模型 中 来 处 理会 议 类 型 会 话语 音 识 别 。HDP 自 适 应 
语言 模型 与 标准 的 自 适应 模型 相 比 ， 使 词 错误 率 稍微 下 降 (0. 3%)。 其 中 基线 系统 有 39% 
的 词 错 误 率 。Teh [78] 报告 了 基于 Pitman-Yor 过 程 的 贝 叶 斯 语言 模型 和 用 Kneser-Ney 
平滑 的 三 元 模型 (没有 和 基线 模型 插值 ) 性 能 相当 。 


5.6.9 神经 网 络 语言 模型 


除了 基于 LSA 的 语言 模型 ， 前 面 提 到 的 语言 模型 建 模 方法 都 是 在 离散 空间 中 估计 事 
件 的 概率 。 神 经 网 络 语言 模型 (Neural Network Language Model, NNLM) [79] 采用 了 
不 同 的 策略 ,离散 的 词 序 列 首先 映 射 到 连续 空间 中 ， 然 后 在 这 个 连续 的 空间 中 对 n 元 概率 
进行 估计 。 我 们 假定 具有 相似 分 布 属性 的 词 具有 相似 的 连续 表示 ， 反 过 来 将 产生 更 平滑 的 
概率 估计 。 

神经 网 络 是 典型 的 多 层 感知 机 ， 其 中 包含 节点 的 输入 层 、 映 射 层 、 隐 层 和 输出 层 。 
NNLM 的 结构 图 表达 如 图 5-1 所 示 。 相 邻 的 层 通过 带 权 重 的 边 完 全 相互 连接 。 词 汇 量 如 果 
AV, 输入 则 用 n 一 1 个 V 维 的 二 元 特征 问 量 来 表示 nn 一 1 个 历史 词 (例如 三 元 组 的 前 面 两 
个 词 )。 维 度 固定 为 d 的 映射 层 i 在 训练 时 对 共享 词 (该 词 在 训练 中 学 习 而 得 ) 的 连续 空 
间 进 行 编码 。 隐 层 h 包含 固定 的 J 个 节点 ， 每 一 个 节点 计算 一 个 国 值 ， 该 阔 值 是 一 个 由 输 
入 触发 的 非 线性 组 合 ， 比 如 用 下 面 的 正切 函数 来 计算 : 


d " 
h; =tanh( J whia to!) Visi=1,.,] (5. 51) 
k=] 


P(w, | w,-1 W4-2) 





V= 词 汇 
d= 连 续 空间 大 小 


图 5-1 神经 网 络 语言 模型 





其 中 w 表示 连接 映射 层 和 隐 含 层 的 边 的 权重 ，b 是 隐 层 节点 的 偏差 值 。 最 后 ， 输 出 层 o 
计算 V 的 后 验 概 率 分 布 : 
oj = — Visj 一 1,…,V (5. 52) 





J 
aj = 2, Wahi - 6 (5, 53) 
k—1 


在 训练 阶段 ， 输 出 层 被 赋予 二 值 目标 标签 信息 ， 其 中 ，1 表示 被 预测 的 词 ，0 表示 所 
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有 其 他 词 。 通 过 后 向 传播 算法 对 神经 网 络 训练 ， 目 标 是 最 大 化 训练 数据 的 对 数 似 然 ， 一 般 
还 会 加 入 一 个 正则 项 R 来 限制 参数 值 0: 


T 
Loc T 2 logCPGu; | hid 30) — RCO) (5. 54) 
j=} 


正则 项 可 以 有 不 同 的 形式 ， 一 个 通用 的 方法 是 计算 权重 的 平方 和 : Luwr. DR COT 
以 降低 神经 网 络 的 复杂 度 ， 并 减少 权重 过 大 而 导致 的 过 拟 合 。 因 此 ， 历 史 中 一 个 特别 的 词 
盲 先 映射 到 所 有 词 共 享 的 连续 空间 。 在 给 定 历史 的 情况 下 ， 将 该 空间 作为 给 定 历史 信息 下 
佑 计 被 预测 词 概率 的 一 个 基础 。 

Schwenk 和 Gauvain [80], Schwenk [81], U Æ Schwenk, Déchelotte 和 Gauvain 
[82] 已 经 成 功 地 将 NNLM 应 用 在 语音 识别 任务 中 ，Alexandrescu 和 Kirchhoff [83] m 
成 功用 于 机 需 翻 译 中 。 尽 管 他 们 仅 使 用 了 痉 个 使 用 最 多 的 词汇 ， 但 在 和 标准 的 ) 元 模型 组 
合 后 也 起 到 了 很 好 的 效果 。Schwenk [81] 报告 了 在 法 语 广播 新 闻 识 别 任务 中 ， 语 言 模型 
的 困惑 度 下 降 了 8%, WERZA 0. 5% WER., Emami 和 Mangu [82] 在 阿拉 伯 语 语音 
识别 任务 中 词 错误 率 有 0. 8% KART MEE 〈3. 8% AAA THE ) o 

Emami 和 Jelinek [84 ] 将 基于 神经 网 络 的 概率 估计 和 结构 语言 模型 组 合 ; Alexan- 
drescu 和 Kirchhoff [85] 在 阿拉 伯 语 中 将 NNLM 和 因子 化 词 表示 相 组 合 ， 这 样 不 仅 可 以 
利用 分 布 性 质 ， 还 可 以 利用 形态 学 和 词性 类 别 信 息 来 探索 词 的 相似 度 。 


5.7 特定 语言 建 模 问题 

对 语言 进行 建 模 的 研究 主要 针对 英语 ， 然 而 语音 和 语言 处 理 技术 也 涉及 其 他 的 语言 。 
标准 的 n 元 建 模 方法 对 一 些 语言 存在 很 大 的 问题 ， 因 此 有 必要 对 传统 的 语言 模型 框架 进行 
调整 。 在 这 个 部 分 ， 我们 对 3 类 特定 语言 问题 进行 探讨 : 语言 形态 复杂 性 、 无 分 词 、 口 语 
和 书面 语 的 比较 。 


5.7.1 形态 丰富 语言 的 建 模 


形态 丰富 语言 的 一 大 特点 是 很 多 词 能 够 根据 形态 化 〈 词 生成 ) 过 程 产生 很 多 不 同 且 独 
一 无 二 的 词 形 。 词 素 是 语言 中 最 小 的 承载 语义 的 单元 。 词 素 可 以 是 自由 的 〈 即 单独 存在 )， 
或 者 是 受 约束 的 〈 即 和 其 他 词素 组 合 出 现 )。 形 态 化 过 程 包含 复合 (从 两 个 独立 已 存在 的 
自由 词素 生成 )、 派 生 〈 将 自由 词素 和 受 约束 词素 组 合 来 生成 一 个 新 词 ) 、 屈 折 变 化 〈 将 目 
由 词素 和 复合 词素 组 合 表示 某 一 特定 的 语法 特征 ) 。 

例如 德语 ， 以 高 复合 性 著称 ， 特 别 是 名 词 。 土 耳 其 语 是 黏着 语 ， 将 几 个 词素 组 合作 为 
一 个 词 ， 因 此 ， 在 英语 中 用 句法 短语 表示 的 内 容 在 土耳其 语 中 仅 用 一 个 由 空格 分 开 的 单元 
表示 就 可 以 了 。 比 如 górülmemeliydik 等 于 “we should not have been seen", 

因此 ， 土 耳 其 语词 数量 非常 庞大 。 很 多 语言 有 丰富 的 词 形变 化 ， 像 芬兰 语 和 阿拉 伯 
语 ， 根 形式 (基本 形式 ) 可 以 有 几 千 个 不 同 的 词 形 表现 。 表 5-1 给 出 两 种 现代 标准 阿拉 介 
if (Modern Standard Arabic, MSA) 屈折 变化 范式 。 一 种 是 对 词根 skn (基本 意义 : 
live) 的 现在 时 的 动词 屈折 变化 ， 另 一 种 是 词根 kth (基本 意义 ; book) 的 代名词 所 有 格 
屈折 变化 。 

由 于 较 高 的 词 型 词 例 比 ， 形 态 多 样 性 在 语言 模型 建 模 中 产生 了 严重 的 问题 ， 这 使 得 训 
练 集 数据 存在 数据 稀 朴 问题 ， 很 多 测试 数据 中 的 ?元 组 没有 在 训练 数据 中 出 现 ， 或 者 是 出 
现 的 次 数 不 够 多 ， 因 此 对 概率 估计 不 准确 。 另 外 一 个 问题 是 未 登录 词 (OOV) 的 高 出 现 


率 。 在 一 定 程度 上 ， 这 种 负面 影响 可 以 通过 搜集 更 多 的 训练 语 料 来 避免 。 然 而 ， 随 着 使 用 
越 来 越 多 的 文本 ， 形 态 丰富 的 语言 并 没有 和 词 形 较 单 一 的 语言 一 样 ， 词 汇 增长 有 明显 的 下 
降 趋势 。 这 种 趋势 是 由 语言 形态 复杂 程度 所 决定 的 。 表 5-2 表明 了 不 同 语言 的 词 型 和 词 例 
的 关系 ， 以 及 在 保留 的 测试 集中 不 同 语言 的 未 登录 词 率 。 


表 5-1 现在 时 动词 形式 和 所 有 格 代词 的 MSA 届 折 范式 (后缀 和 词 干 用 连 字 号 分 开 ) 


词 意 思 词 意 思 
'a-skun (u) I live kitaab-iy my book 
ta-skun (u) you CIHTED live kitaabu-ka your (阳性 ) book 
ta-skun-iyna you (PATE) live kitaabu-ki your (BARE) book 
ya-skun (u) he lives kitaabu-hu his book 
ta-skun (u) she lives kitaabu-haa her book 
na-skun (u) we lives kitaaabu-nu our book 
ta-skun-uwna you (阳性 复数 ) live kitaabu-kum your book 、 
ya-skun-uwna they live kitaabu-hum their book 


X 5-2 不 同 语言 的 词 例 、 词 型 的 数目 以 及 未 登录 词 率 (FED MBH) 


语 言 风 Ki 词 例 数 词 型 数 N 个 词 中 的 未 登录 词 率 源 
英语 新 闻 文 本 19M 105k 1% (60K) [86] 
阿拉 伯 语 新 闻 文 本 19M 690k 11% (60K) [86] 
捷克 语 新 闻 文 本 16M 415k 8% (60K) [87] 
韩语 新 闻 文 本 15. 5M 1.5M 25% (100K) [88] 
THEE 混合 文本 9M 460k 12% (460K) [89] 
芬兰 语 Br. 150M 4M 1.5% (4M) [90] 


在 处 理 形 态 丰 富 的 语言 时 ， 需 要 确定 具体 应 用 的 词汇 表 是 否 可 以 用 一 个 完全 词 形 的 列 
表 来 表示 〈 例 如 训练 集中 出 现 频率 最 高 的 形式 )， 或 者 是 否 把 比 词 更 小 的 单元 〈 亚 词 ， 
subword) 选 作 基本 的 语言 建 模 单元 。 该 选择 依赖 于 可 用 计算 资源 的 限制 ， 例 如 语音 识别 
应 用 中 解码 器 的 高 效 性 、 内 存 和 速度 要 求 以 及 训练 数据 的 规模 。 将 词 分 解 为 更 小 单元 的 优 
点 是 降低 了 词汇 量 ,， 反 过 来 也 降低 了 不 同 x 元 的 数目 。 除 了 改进 了 速度 和 降低 了 内 存 损 耗 
外 ， 亚 词 单元 还 在 多 个 词 中 出 现 ， 因 此 每 个 单元 的 训练 词 例 数目 增加 了 ， 这 样 使 得 概率 估 
计 更 具 鲁 棱 性 。 最 后 ， 基 于 亚 词 单元 的 建 模 使 得 语言 模型 把 非 零 概率 分 配给 那些 没有 在 训 
练 数据 中 出 现 的 词 。 另 外 ， 如 果 一 个 词 被 线性 分 解 ， 一 个 固定 的 nn 元 上 下 文 仅 提供 了 一 个 
词 不 同 部 分 的 关系 ， 没 有 提供 词 之 间 的 依存 关系 。 因 此 语言 模型 的 预测 能 力 下 降 了 。 并 
且 ， 当 语言 模型 的 词汇 量 和 用 于 语音 识别 的 词汇 量 相 等 时 ， 需 要 注意 定义 的 单元 不 能 太 
小 ， 如 果 太 小 在 声学 上 容易 混 消 。 

阿拉 伯 语 通常 被 认为 是 一 种 形态 丰富 的 语言 ， 它 可 以 作为 一 个 有 趣 的 例子 来 强调 在 不 
同 的 情况 下 是 否 需 要 分 解 成 亚 词 单元 。 多 项 研究 (68, 63, 91] 已 经 表明 引入 形态 信息 到 
语言 模型 中 对 带 阿 拉 伯 语 方言 的 建 模 有 和 帮助。 尽管 阿拉 伯 语 的 方言 较 现 代 标 准 阿拉 但 语 
(书面 标准 ) 在 形态 上 更 为 简单 ， 但 它 的 训练 数据 非常 稀疏 ， 因 为 它 本 质 上 是 口语 并 且 需 
要 人 工 转录 成 可 获取 的 语言 建 模 数据 。 现 代 标 准 阿 拉 伯 语 有 大 规模 的 数据 可 用 ， 但 在 使 用 
大 规模 数据 时 [91j， 语 言 模型 中 的 形态 分 解 并 没有 产生 明显 的 改进 ， 并 且 像 现代 标准 阿 
拉 伯 语 的 语音 识别 这 种 大 规模 应 用 需要 的 词汇 数量 为 60 万 一 80 万 个 词 ， 这样 的 数量 级 是 [190] 
当前 解码 器 能 够 处 理 的 [92]。 

对 于 具有 特别 高 的 词 型 词 例 比 的 语言 (芬兰 语 或 土耳其 语 )， 形 式 分 解 是 需要 的 : 对 
于 大 型 任务 ， 如 果 需 要 充分 覆盖 测试 集 的 数据 ， 所 需 词 汇 量 很 可 能 超过 当前 解码 如 的 处 理 
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能 力 ， 并 且 相 应 的 语言 模型 概率 佑 计 也 不 够 准确 。 在 下 面 的 部 分 中 ,我 们 讨论 词 分 解 问 题 
最 近 的 几 种 处 理 方 法 。 


5.7.2 亚 词 单元 的 选择 

我 们 可 以 用 数据 驱动 、 无 监督 的 方式 来 对 亚 词 单 元 进行 识别 ; 也 可 以 基于 语言 学 信息 
(例如 形态 学 分 析 器 ); 或 者 是 二 者 的 结合 。 基 于 语言 学 的 方法 主要 涉及 手写 形态 分 析 工 
具 ， 比 如 为 阿拉 伯 语 而 开发 的 Buckwalter 形态 分 析 器 ， 该 分 析 器 把 每 个 词 转化 为 不 同形 态 
部 件 。 每 一 个 词 形 在 这 种 情况 下 会 有 几 种 可 能 的 分 析 ， 因 此 后 续 阶 段 需要 执行 统计 消 歧 这 个 
步骤 (例如 [94])。 针 对 考察 的 特定 语言 ， 数 据 驱 动 方 法 融入 了 不 同 粒度 的 信息 ， 并 且 优 化 
标准 可 以 有 很 大 的 不 同 。 一 些 方 法 致力 于 发 现 语言 学 上 定义 的 语素 相对 应 的 单元 ， 然 而 其 他 
方法 则 专注 于 选择 一 个 最 适合 当前 任务 或 应 用 的 基本 单位 。 

识别 语言 学 语素 的 自动 算法 最 早 是 Zellig Harris 在 1995 年 提出 的 方法 ， 它 估计 词 里 
每 一 个 字母 后 面 接 不 同 字 母 的 困惑 度 195j]。 如 果 某 个 转移 的 困惑 度 很 高 〈 即 后 面 的 字母 
很 难 估计 )， 那 么 在 这 种 情况 下 可 以 假设 一 个 词素 边界 。Adda-Decker 和 Lamel [96] 对 上 
面 的 方法 做 了 修改 ， 用 来 分 解 德语 复合 词 ， 从 而 使 一 个 规模 为 3 亿 词 、 固 定 词汇 量 在 
65 000—100 000 之 间 的 德语 语 料 ， 未 登录 词 率 相对 下 降 23% ~50%., 

一 般 来 讲 ， 简 单 的 基于 频率 的 方法 容易 出 现 对 训练 数据 的 过 拟 合 并 且 产 生 比 预期 更 多 
的 词素 。 因 为 拟 合 的 数据 相对 于 整个 词素 数目 是 不 平衡 的 。 解 决 这 个 问题 的 办 法 是 在 建 模 
时 显 式 包含 对 词素 集合 大 小 的 惩罚 项 ， 最 近 开 发 的 Morfessor 工具 包 [97] 就 是 这 样 实现 
的 。 它 通过 最 大 化 语 料 C 的 后 验 概率 来 获得 词素 集合 M : 

M = argmaxP (M | C x POC |. My PCM) (5. 55) 


这 也 等 价 于 最 小 化 描述 长 度 的 方法 。 通 过 贪心 算法 实现 对 可 能 词素 的 搜索 ， 也 就 是 尝 
试 所 有 可 能 的 分 割 方式 ， 将 每 一 个 词 递 归 分 割 成 两 个 部 分 。 我 们 选择 那些 能 够 改进 概率 
P(M | C (减少 编码 长 度 ) 的 分 割 方式 。 这 个 方法 的 后 续 版 本 [98，99」 包含 一 个 随机 
的 形态 类 别 模型 和 不 同 的 概率 估计 技术 。Meorfessor 模型 在 一 个 涉及 芬兰 语 、 土 耳 其 语 和 
英语 [100] 的 基线 评测 任务 中 超过 了 其 他 自动 分 词 算法 。 使 用 Morfessor 分 解 单词 的 语 
言 模型 已 经 应 用 到 芬兰 语 、 爱 沙 尼 亚 语 、 土 耳 其 语 和 阿拉 伯 语 的 语音 识别 中 ， 并 在 前 面 3 
种 高 黏着 性 语言 的 测试 中 获得 好 成 绩 [90]. 

与 尝试 匹配 预定 义 语 言 单 元 集合 不 同 的 另外 一 种 方法 是 推出 一 个 直接 优化 诸如 困惑 度 
或 未 登录 词 率 这 些 用 于 评价 语言 模型 性 能 标准 的 单元 集合 。 这 对 那些 没有 严格 黏着 性 的 语 
言 可 能 更 为 适合 ， 这 些 语 言 包含 一 定数 量 的 屈折 变化 ， 例 如 由 组 合 两 个 或 两 个 以 上 语素 产 
生 的 词性 有 不 透明 的 变化 。Whittaker 和 Woodland [101] 采用 了 该 方法 ， 将 其 运用 于 俄 
语 的 建 模 。 在 此 ， 一 个 基于 小 品 词 的 模型 定义 为 : 





w, w w w. wW. w- 
Piwi h) = za? ie | "uA Bs es t | "EMEN, PO) urn y) 
(5. 56) 
其 中 词 w: 可 以 根据 一 些 分 解 函数 工 OA Low) Aiaia] us t uw) 。 小 品 词语 言 模型 计 


算 在 给 定 历史 下 小 品 词 的 概率 ， 其 中 历史 包含 到 上 一 个 词 中 最 后 一 个 小 唱词 的 所 有 小 品 词 。 比 
较 两 种 推出 小 品 词 的 数据 驱动 方法 : 一 种 是 对 固定 长 度 下 所 有 可 能 单元 的 贪心 过 历 ， 保 留 那些 
能 够 最 大 化 数据 似 然 的 小 品 词 ， 另 一 种 是 小 品 词 增长 技术 ， 小 品 词 初 始 化 为 所 有 的 单字 符 单 元 ， 
然后 连续 加 入 附近 的 字符 来 扩展 ， 使 得 最 后 产生 的 单元 能 够 获得 最 小 的 困惑 度 。 


Kiecza, Schultz 和 Waibel [88] 提出 了 一 种 韩语 建 模 的 方法 ， 该 方法 将 基本 音节 单元 组 
合 为 比 音 节 大 ， 但 是 比 韩 语词 小 的 单元 ， 称 为 eojols， 它 和 土耳其 词 的 复杂 度 相 近 。 通 过 最 
小 化 未 登录 词 率 来 对 音节 进行 组 合 。 在 这 两 种 方法 里 ， 困 惑 度 和 未 登录 词 率 都 有 了 很 大 的 改 
Jt. 但 在 最 后 的 系统 评估 (语音 识别 词 错误 率 ) 中 ， 系 统 性 能 保持 不 变 ， 或 仅 有 少量 提升 。 

在 最 近 的 研究 中 ， 亚 词 单元 的 选择 都 根据 最 终 系统 性 能 来 进行 优化 ， 一 般 的 做 法 是 尝 
试 所 有 的 切 分 方法 ， 并 评估 它们 对 系统 性 能 的 影响 。Arisoy、Sak 和 Saraclar[ 102] 在 土 
耳 其 语音 识别 中 ， 比 较 了 采用 下 列 4 种 单元 : 词 、 随 机 切 分 的 单元 、 语 言 学 上 定义 的 语 
素 ， 词 根 加 后 级 的 语言 模型 建 模 对 系统 性 能 的 影响 ,结果 表 明 词 根 加 后 缀 的 词 错误 率 效 果 
最 好 ， 优 于 其 他 3 种 。 


5.7.3 形态 类 别 建 模 


语言 模型 中 针对 亚 词 单元 的 大 多 数 工 作 主 要 关注 黏着 语 中 词 的 线性 分 解 。 结 果 产 生 的 
亚 词 单元 最 常 在 标准 的 元 模型 中 使 用 。 就 如 前 面 提 到 的 ， 一 个 问题 是 元 组 的 上 下 文 需 
要 扩展 ， 除 了 要 对 亚 词 单元 的 依存 关系 建 模 ， 还 要 完成 词 间 依存 关系 的 建 模 ， 这 也 相对 应 
需要 增加 训练 数据 的 规模 。 

然而 ， 在 研究 者 们 提出 的 几 种 方法 中 ， 词 仍然 是 建 模 的 基本 单元 ， 但 是 概率 分 配 上 考 
虑 了 亚 词 部 件 或 者 形态 类 的 统计 信息 。Arisoy 等 [46] 提出 了 针对 土耳其 语 的 判别 式 语言 
模型 (参见 5. 6. 3 节 ) 。 该 模型 引入 了 定义 在 词素 上 的 特征 函数 ， 例 如 词根 的 革 元 频次 或 
者 届 折 变化 类 别 频次 。 语 言 模型 为 整个 词 序列 分 配 概率 (未 分 解 的 n-best 假设 )， 但 考虑 
基于 词素 特征 函数 给 出 的 限制 。 实 验 结果 表明 该 模型 相对 于 只 使 用 基于 词 特征 的 判别 式 语 
言 模型 有 少量 的 改进 (在 广播 新 闻 识 别 任 务 中 绝对 词 错 误 率 降低 了 0.3760. Shafran 和 
Hall [45] 用 相同 的 方法 处 理 捷克 语 ， 取 得 了 类 似 的 结果 。 

Kirchhoff 等 [63] 和 Vergyri 等 [68] 在 因子 化 语言 模型 中 对 阿拉 伯 语 使 用 形态 类 GR 
干 、 词 根 等 ) 和 词 作为 条 件 变量 。 尽 管 模 型 对 整个 词 形 的 概率 进行 预测 ， 但 是 在 概率 回 退 过 
程 使 用 了 形态 学 成 分 信息 。 在 阿拉 伯 语 的 语音 识别 任务 中 ， 使 用 有 限 训 练 数 据 训 练 的 FLM 
语言 模型 可 以 略微 降低 系统 词 错 误 率 〈 绝 对 错误 率 ，0.5% 一 1.5%)。FLM 已 经 成 功 应 用 于 
形态 多 变 语言 的 语音 识别 ， 例 如 ， 爱 沙 尼 亚 语 [103]j]， 也 用 于 机 器 翻译 [104], 

形态 化 特征 〈 除 了 词 本 身 ) 在 阿拉 伯 语 和 土耳其 语 [85] 中 也 作为 神经 网 络 语言 模型 
(参见 5. 6.9 45) 额外 的 输入 特征 ， 创 建 了 一 个 因子 化 神经 网 络 语言 模型 。 相 比 于 基于 词 
的 神经 网 络 语言 模型 ， 该 模型 的 困惑 度 有 实质 性 的 改进 〈 对 于 阿拉 伯 语 为 10 为 ， 对 于 士 耳 
其 语 为 40%), 但 目前 没有 具体 应 用 结果 的 相关 报告 。 

Sarikaya 和 Deng [105] 提出 了 面向 阿拉 伯 语 的 形态 和 词汇 的 联合 语言 模型 。 这 里 ， 
句子 用 一 个 表示 形态 、 名 法、 语义 和 其 他 属性 信息 的 句法 树 来 标注 。 语 言 模型 使 用 最 大 入 
概率 (参见 5. 6.5 节 ) 估计 ， 同 时 预测 词 串 及 其 对 应 的 树 的 概率 。 在 英语 到 阿拉 伯 语 的 翻 
译 任务 评测 中 ， 相 比 于 基于 词 的 三 元 语言 模型 ， 该 模型 提升 了 0.3 个 点 〈 绝 对 值 ) 的 
BLEU， 相 比 于 基于 语素 的 三 元 语言 模型 ， 提 升 了 0.6 个 点 的 BLEU, 

Oparin 等 将 RFLM (参见 5. 6.7 节 ) 用 于 形态 语言 模型 建 模 [106]。 和 标准 的 基于 词 的 
RFLM 不 同 ， 随 机 森林 模型 使 用 的 决策 树 不 仅 可 以 查询 不 同 词 的 从 属 关 系 ， 也 可 以 查询 关于 
形态 特征 (曲折 变化 或 形态 标记 )、 词 干 、 原 形 和 词性 的 信息 。 通 过 一 个 包含 24 万 词汇 的 捷 
克 口 语 演 讲 识别 任务 ， 研 究 者 们 对 模型 进行 了 评测 。 尽 管 基于 词 的 RFLM 相对 于 Kneser-Ney 
类 型 的 三 元 语言 模型 没有 实质 性 的 提高 ， 但 是 形态 RFLM 在 困惑 度 上 有 10.4% 的 相对 提高 ， 
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在 词 准 确 性 上 有 3. 4 为 的 相对 提高 。 与 前 面 的 研究 结果 不 同 ， 将 RFLM 和 标准 的 元 模型 插 
值 能 够 进一步 提升 系统 性 能 〈 困 惑 度 提 升 了 15.6 凶 )。 除 了 产生 不 同 的 词 历史 聚 类 (通过 形 
态 特征 而 不 是 词 特征 来 导出 )， 形 态 RELM 具有 更 大 的 随机 性 ， 因 为 每 一 个 决策 树 节 点 潜在 
的 分 割 方式 大 幅度 增加 ， 在 这 种 情况 下 可 能 使 形态 RFLM 获得 较 好 的 性 能 。 


5.7.4 无 分 词语 言 


尽管 黏着 性 在 很 多 语言 中 生成 了 很 多 很 长 并 且 复 杂 的 词 形 ， 但 其 他 语言 仍然 没有 显 式 
地 对 字符 串 进 行 分 词 。 在 中 文 或 日 请 这 样 的 语言 中 ， 句 子 写作 一 连 串 字符 ， 用 标点 符号 隔 
JF. 但 是 内 部 没有 空格 来 表示 词 的 边界 。 对 这 些 语言 有 背景 知识 的 读者 能 够 马上 用 最 正确 
的 理解 方式 对 字符 序列 进行 分 词 。 尽 管 统计 语言 模型 对 这 种 语言 可 以 基于 字符 进行 建 模 ， 
但 是 先 对 它们 进行 分 词 ， 然 后 再 训练 语言 模型 这 样 更 为 合适 。 和 将 词 分 解 为 亚 词 单元 CS 
4.5.7. 1350 类 似 ， 使 用 字符 作为 基本 的 建 模 单 元 可 能 无 法 正确 表达 词 间 的 关系 。 并 且 ， 
分 词 能 够 决定 字符 如 何 发 音 ， 这 对 语音 识别 系统 中 语言 模型 和 发 音 模型 使 用 相同 的 建 模 单 


元 来 说 很 重要 。 最 后 ， 实 验 表明 ， 在 中 文 [107] MA [108] 中 ,在 自动 分 词 的 文本 上 


构建 的 语言 模型 较 基 于 字符 的 语言 模型 的 困惑 度 更 低 。 

自动 分 词 算法 主要 将 词典 信息 、 统 计 搜 索 、 额 外 特征 ， 例 如 外 来 字母 、 字 符 共 现 次 数 
和 字符 的 位 置 等 进行 融合 。 这 些 算法 大 多 根据 统计 解码 框架 ， 使 用 诸如 Viterbi 搜索 算法 
生成 最 有 可 能 的 分 词 结果 。 上 此外， 研究 者 们 还 探索 了 包含 条 件 随机 场 1109, 110, 111], 
RK RE [112, 113] 和 感知 机 [114] 判别 式 模 型 等 其 他 方法 。 很 多 中 文 分 词 的 工作 
是 在 从 2003 年 起 由 ACL (Association for Computational Linguistics) 举办 的 SIGHAN 中 
文 分 词 比 赛 中 做 的 。 这 个 比赛 已 经 成 为 评测 不 同 分 词 系 统 的 基准 平台 。 通 过 精确 率 P (也 
就 是 正确 分 词 占 分 词 结果 的 比例 )、 召 回 率 尺 (所 识别 的 正确 分 词 占 所 有 正确 分 词 的 比例 ) 
以 及 它们 的 组 合 指 标 下 值 (F=2PR/ (P 十 R))， 自 动 分 词 结果 和 语言 学 上 真实 的 分 词 结 
果 进 行 比 较 。 这 些 可 以 对 未 登录 词 和 词汇 表 中 的 词 分 别 计 算 。 目 前 ， 最 好 的 分 词 系统 在 最 
近 的 评测 中 下 值 为 0.96。 然 而 ， 对 于 未 登录 词 ， 下 值 偏 小 ， 大约 为 0. 76 [115]. 

除了 尝试 匹配 语言 学 上 定义 的 词 ， 优 化 分 词 能 够 直接 提高 语言 模型 的 性 能 。Sproat 等 
[108] 证 明 用 于 中 文 分 词 的 词典 对 在 已 分 词 文 本 上 训练 的 二 元 语言 模型 的 困惑 度 有 很 大 的 
影响 。 通 过 合并 频繁 共 现 的 词 对 来 迭代 优化 字典 ， 使 得 每 一 次 迭代 困惑 度 都 下 降 。 注 意 ， 
该 方法 和 前 面 5.7. 1 节 中 使 用 数据 驱动 算法 来 生成 类 词素 的 亚 词 单元 的 方法 很 像 。 男 外 一 
个 数据 驱动 方法 的 例子 是 日 语 ， 使 用 字符 块 来 对 语言 模型 建 模 [107 ]。 具 体 实 现 中 ， 通 过 
选择 最 高 频 的 对 元 组 和 与 之 相 类 似 的 模式 来 生成 块 。 因 此 ， 基 本 的 模型 单元 既 不 是 字符 也 
不 是 词 ， 而 是 中 间 的 单元 。 


5.7.5 口语 与 书面 语言 


统计 语言 建 模 很 大 程度 上 依赖 于 大 规模 的 书写 文本 数据 ， 并 且 语 言 建 模 研究 的 一 个 明 
显 趋势 是 研究 如 何 调整 当前 的 语言 建 模 技术 去 适应 更 大 的 数据 库 。 然 而 ， 世 界 上 6900 种 
语言 中 ,很 多 语言 是 口语 ， 也 就 是 没有 书写 系统 的 语言 。 它 们 要 么 是 土著 语言 ， 没 有 文字 
传统 ， 要 么 是 语言 变种 ， 比 如 地 方 方 言 ， 每 天 作为 口语 来 交流 ， 而 很 少 应 用 在 写作 中 。 举 个 
例子 ， 阿 拉 伯 语 的 很 多 方言 用 在 日 常 的 交际 中 ， 但 是 几乎 找 不 到 书写 形式 。 其 他 语言 可 能 既 
有 口语 又 有 书写 ， 但 是 可 能 没有 标准 的 正确 拼写 。 

这 两 种 情况 说 明了 语言 建 模 的 困难 。 对 于 第 一 种 情况 ， 获 得 语言 建 模 训练 数据 的 唯一 
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方法 是 手工 转录 语言 或 方言 。 这 样 做 的 代价 很 高 ， 并 且 整 个 过 程 非常 消耗 时 间 ， 因 为 它 涉 
及 : 1) 写作 标准 的 制定 。2) 训练 母语 者 让 他 们 使 用 写作 系统 并 保持 一 致 性 和 准确 性 。3) 
在 数据 转录 中 的 实际 投入 。 对 于 第 二 种 情况 ， 从 那些 正在 考察 的 语言 中 获取 的 文本 资源 
(例如 通过 互联 网 ) 需要 进行 标准 化 ， 这 是 一 个 相当 耗费 劳力 的 过 程 。 因 此 ， 对 这 些 资源 
稀缺 的 语言 ， 几 乎 没有 相关 的 语言 模型 建 模 工作 。 很 多 研究 集中 在 如 何 通过 网 络 来 快速 收 
集 这 些 资 源 稀 缺 语 言 的 语 料 。Le 等 [116] 及 Ghani, Jones 和 Mladenic [117] 描述 了 该 
过 程 中 面临 的 一 些 内 在 的 挑战 。 对 口语 和 缺乏 标准 的 语言 ， 可 能 快速 进行 语言 模型 建 模 的 
方法 包含 基于 文法 或 基于 类 别 的 方法 ， 并 结合 有 限 的 转录 数据 。 对 于 一 个 受 限 的 应 用 ， 例 
如 对 话 系 统 的 开发 ， 可 能 的 言语 结构 可 以 通过 任务 语法 或 基于 类 的 语言 模型 来 预定 义 ， 然 
而 更 细 粒 度 的 词 序列 概率 或 给 定 词类 下 的 词 概 率 则 由 小 规模 数据 训练 得 到 的 语言 模型 来 完 
成 。 一 个 有 趣 的 研究 方向 是 使 用 与 考察 的 语言 相近 的 语言 或 者 虽 不 相近 但 资源 丰富 的 语言 
数据 来 改善 目标 语言 模型 。 下 面 章节 对 这 些 方法 做 了 一 些 描述 。 


5.8 多 语言 和 跨 语 言 建 模 


5.8.1 多 语言 建 模 


至 此 ， 我 们 已 讨论 了 直接 将 统计 语言 模型 应 用 于 特定 语言 或 语言 类 型 所 引起 的 问题 ， 例 
如 黏着 语 或 无 分 词 的 语言 。 我 们 一 直 默 认 假 设 语言 模型 只 在 与 目标 语言 相关 的 应 用 中 使 用 。 
然而 ， 在 很 多 情况 下 ， 一 个 系统 可 以 顺序 地 面临 多 种 语言 (例如 不 同 的 用 户 使 用 不 同 的 语 
言 ， 没 有 预先 告知 随后 的 文本 中 会 出 现 什 么 语言 )， 或 在 诸如 编码 切换 (code switching) 中 
同时 出 现 多 种 语言 。 这 里 说 话 人 在 同一 句 话 中 可 能 同时 使 用 多 种 语言 或 方言 。 编 码 切换 的 现 
象 存在 于 各 种 各 样 的 双语 或 多 语言 社区 ,或 使 用 两 种 语言 或 者 方言 的 场景 ， 例 如 除了 口语 
或 方言 变种 ， 还 使 用 正式 标准 语言 。 在 美国 “西班牙 语 ” 的 使 用 《〈 混 合 了 西班牙 和 英语 ) 
就 是 编码 切换 的 一 个 例子 。 下 面 ， 我们 通过 Franco 和 Solorio [118] 的 例子 来 说 明 问 题 : 

I need to tell her que no voy a poder ir. 

‘I need to tell her that I won't be able to make it. ’ 

为 了 处 理 口 语 间 语 言 动 态 切换 的 多 语言 输入 ， 可 以 根据 单 语 语 料 对 语言 模型 进行 分 别 
建 模 ， 使 用 了 这 些 模 型 的 系统 (例如 一 个 基于 语音 的 报 挫 或 基于 电话 的 对 话 系 统 ) 可 以 基 
于 第 一 步 的 语言 识别 结果 来 选择 语言 模型 ， 或 者 基于 在 初始 处 理 之 后 产生 最 高 分 数 的 语言 
模型 (在 语音 识别 中 有 时 会 结合 发 音 模 型 ) 来 进行 动态 选择 。 

Fügen 等 表明 如 何 通 过 上 下 文 无 关 文 法 将 几 个 单 语 语言 模型 合并 成 一 个 多 语 语 言 
型 ， 其 中 文法 的 非 终 结 符 包 含 语言 信息 ， 终 结 符 状态 与 单 语 n 元 模型 一 致 。 使 用 明确 的 文 
法 规则 来 对 现 有 状态 进行 扩展 (只 用 匹配 语言 中 的 元 组 )， 以 避免 不 合 时 机 的 语言 切换 。 
构建 单个 多 语 语言 模型 的 可 选 方法 是 在 包含 多 个 单 语 语 料 的 数据 池 中 训练 一 个 单独 多 语言 
模型 或 训练 多 个 单 语 语言 模型 ， 然 后 以 插值 方式 来 使 用 。 第 一 种 技术 降低 了 系统 性 能 ， 特 
别 是 语 料 大 小 不 平衡 的 时 候 [120，121]。 第 二 种 技术 则 有 轻微 的 提高 ,但 仍然 比 不 上 前 
面 提 到 基于 文法 的 方法 [119]. 

对 第 二 种 情况 〈 句 内 语言 转换 ) 的 语言 建 模 十 分 困难 ， 因 为 几乎 没有 或 根本 没有 相关 
的 训练 数据 可 用 。Wang 等 [122] 通过 引入 一 个 暂停 单元 形式 的 通用 回 退 节点 来 构建 4 种 
语言 的 语言 模型 ， 也 就 是 语言 在 出 现 暂 停 后 允许 以 某 种 概率 进行 切换 。 


5.8.2 BARRI 
另外 一 个 问题 是 一 种 语言 的 数据 是 否 可 以 帮助 改进 男 一 种 语言 的 语言 模型 ， 假 定 风 格 
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或 领域 非常 接近 。 如 果 目 标语 言 的 可 用 数据 不 足 ， 但 存在 大 量 的 外 语文 本 ， 从 中 可 抽取 足 
够 的 信息 ， 那 么 原来 不 精确 的 概率 估计 有 望 借 此 得 到 改善 。 

这 个 思想 最 直接 的 方法 是 自动 将 其 他 语言 文本 翻译 成 目标 语言 ， 然 后 将 它 (尽管 有 错误 ) 
作为 额外 的 语言 训练 语 料 。Khudanpur、Kim [123] 和 Jensson 等 [124] 采用 了 这 种 方法 。 

在 早期 的 研究 中 ， 用 于 语音 识别 的 中 文 新 闻 文 本 语言 模型 的 训练 数据 ,就 是 通过 添加 
同 领域 自动 翻译 的 英语 文本 译文 来 进行 扩充 的 。 从 翻译 文本 中 抽取 的 一 元 和 在 可 用 的 中 文 
文本 数据 上 训练 的 三 元 基线 语言 模型 进行 插值 。 用 于 翻译 的 英语 文本 的 选择 和 插值 系数 4 
根据 每 一 个 新 的 具体 场景 指定 ， 如 此 同时 假定 了 一 个 隐 式 主题 适应 形式 。 在 语音 识别 中 ， 
产生 的 模型 的 字符 困惑 度 有 大 约 10% 的 相对 降低 ， 词 错误 率 有 0.5% 的 绝对 降低 (对 于 不 
同 的 系统 ， 基 线 字 符 错 误 率 大 约 为 26 为 ) 。 作 者 也 注意 到 英语 文本 相对 中 文 文本 更 新 ， 因 
此 也 许 对 系统 性 能 的 提高 有 帮助 。 这 在 调查 潜在 的 外 语言 Cout-of-language) 的 数据 资源 
时 是 一 个 重要 的 考虑 因素 。 

Jensson [124] 为 冰岛 的 天 气 预报 开发 了 一 个 语言 模型 ， 使 用 小 规模 的 内 语言 (in- 
language) 数据 ， 以 及 用 来 训练 机 融 翻 译 系 统 的 有 限 数 量 的 英语 - 冰岛 语 平行 语 料 。 通 过 
大 规模 自动 翻译 的 数据 训练 一 个 语言 模型 和 基线 语言 模型 插值 ， 在 冰岛 语音 识别 系统 中 有 
积极 的 作用 ， 困 惑 度 有 9. 2 为 的 降低 ， 词 错误 率 相 对 降低 了 1.926 —9. 576. 

然而 ， 如 果 在 开始 没有 充分 的 语言 数据 来 训练 机 器 翻译 系统 ， 则 用 机 器 翻译 技术 处 理 
其 他 语言 数据 可 能 会 失败 ， 尽管 上 述 六 岛 语 实验 中 表明 在 严格 受 限 的 领域 中 ， 有 限 的 平行 
语 料 仍然 可 能 是 足够 的 。 也 可 以 不 使 用 完全 成 熟 的 机 器 翻译 系统 ， 而 依赖 于 高 质量 的 基于 
词 的 翻译 词典 。Kim 和 Khudanpur [125] 表明 高 质量 的 翻译 字典 可 以 从 文档 对 齐 平行 语 
料 的 词 对 中 通过 计算 互信 息 统计 来 获得 ， 而 并 不 需要 句子 对 齐 的 平行 语 料 。 在 中 文 广播 新 
闻 识 别 的 实验 中 ， 他 们 发 现 通 过 基于 词典 的 翻译 结果 和 基线 语言 模型 插值 生成 的 一 元 模型 
能 够 达到 和 跨 语言 语言 模型 相似 的 性 能 。 男 外 一 种 通过 文档 对 齐 数 据 构 建 翻 译 词 典 的 可 行 
方法 是 使 用 跨 语言 的 潜在 语义 分 析 L126]。 在 这 种 方法 中 ， 两 种 语言 的 词 都 映射 到 同一 个 
语义 空间 中 ， 在 该 空间 中 不 同 语言 的 词 间 相似 度 用 于 构建 词 翻 译 概 率 . 

前 面 提 到 的 方法 的 一 个 缺点 是 产生 模型 的 质量 很 大 程度 上 依赖 于 翻译 准确 度 。Tam 
等 [127] 最 近 提 出 了 另外 一 个 模型 ， 在 翻译 之 前 使 用 双语 潜在 语义 分 析 Cbilingual La- 
tent Semantic Analysis, bLSA) 进行 适应 。 方 法 要 求 源 语言 和 目标 语言 都 分 别 使 用 一 个 
LSA 模型 ， 因 此 需要 一 个 平行 训练 语 料 。LSA 模型 在 主题 上 引入 了 狄 利 克 雷 风格 的 先 验 
分 布 (参见 5. 6. 8 节 ) 。 混 合 主题 权重 通过 源 端 LDA 模型 来 确定 ， 并 映射 到 目标 LSA 模 
型 中 ， 它 们 可 以 用 于 计算 目标 语言 的 边际 分 布 。 假 定 源 语言 是 中 文 (CC. 目标 语言 是 英 
语 (En)。 在 英语 中 词 的 边际 概率 分 布 为 

Pg. Cw) = Sar (wh (5.57) 
k 


其 中 是 第 个 主题 的 先 验 ，#4(w) 是 根据 第 & 个 潜在 主题 生成 词 w 的 概率 。 就 如 我 们 
看 到 的 ， 主 题 先 验 是 由 源 语言 决定 的 ， 然 而 主题 相关 的 词 概率 分 布 由 目标 语言 决定 ， 目 标 
语言 的 边际 概率 以 下 列 方式 融 人 到 目标 语言 模型 中 ， 如 下 : 


B 
Pare (xw | A) oc (eene) p. Ol 5 (5. 58) 


其 中 PhrsA 是 适应 概率 ，Phss 是 基线 模型 概率 。 这 个 方法 在 路 语言 映射 中 强制 双语 词语 的 
主题 一 一 对 应 。 在 新 领域 的 汉 英 统计 机 器 翻译 评测 任务 中 表明 bLSA 适应 语言 模型 困惑 度 
降低 了 9% 一 13% ， 并 且 BLEU HAT 0. 3 个 点 。 





5.9 Bi 


统计 语言 模型 在 最 近 几 年 得 到 了 很 大 的 发 展 。 尽 管 采用 平滑 的 最 大 似 然 估 计 的 经 典 > 
元 模型 仍然 是 主流 的 方法 ， 但 是 ， 很 多 新 的 模型 ， 例 如 从 神经 网 络 模型 到 判别 式 语 言 
型 ， 都 已 经 和 标准 的 二 元 模型 一 起 被 使 用 。 

很 多 语言 建 模 技 术 ， 比 如 语言 模型 适应 ， 已 经 被 证 明 适 用 于 很 多 不 同形 态 的 语言 ， 并 
且 核 心 技术 可 以 说 是 语言 独立 的 。 如 语言 有 丰富 的 形态 变化 ， 特 别 是 高 黏着 性 的 语言 ， 也 
就 是 每 个 语素 可 以 产生 很 多 不 同 的 词 形 ， 则 会 存在 关键 的 差异 。 这 种 情况 下 ， 在 元 语言 
建 模 前 进行 词 分 解 ， 或 把 基于 亚 词 部 件 的 统计 信息 融 人 到 判别 式 、 因 子 化 、 神 经 网 络 语言 
模型 中 是 非常 有 帮助 的 。 

一 个 最 近 的 趋势 是 使 用 超大 规模 分 布 式 语 言 模型 ， 它 不 使 用 传统 的 概率 估计 方法 ， 而 
是 使 用 近似 分 数 或 计数 。 考 虑 到 语言 建 模 数据 的 数量 在 每 天 增加 ， 这 种 趋势 肯定 会 在 近期 
产生 很 大 的 影响 ， 这 对 大 词汇 量 的 语言 〈 例 如 形态 多 样 化 的 语言 ) 来 讲 也 很 有 意义 ， 因 为 
这 使 实际 系统 使 用 大 型 语言 模型 更 方便 。 

相 比较 而 言 ， 几 乎 没有 研究 是 针对 资源 匮乏 的 语言 的 ， 这 些 语 言 包含 了 大 多 数 口 语 和 方 
言 ， 没 有 大 规模 可 用 的 文本 数据 。 在 这 点 上 ， 从 这 些 语言 种 类 中 获得 数据 的 标准 方法 是 手工 
FER. MG A REARS A BR Ce A HG. FEAT (bootstrapping) 技术 和 语音 识别 技术 结合 可 
以 以 一 种 增 量 方式 来 自动 转录 更 多 的 数据 。 然 而 ， 这 是 一 个 鸡 和 和 蛋 的 问题 ， 因 为 足够 精确 的 
语音 识别 系统 需要 足够 的 文本 和 声音 数据 来 训练 初始 模型 。 语 言 模型 中 跨 语言 的 适应 技术 是 
未 来 重要 的 发 展 方向 ， 这 将 对 把 人 类 语言 技术 应 用 到 资源 匮乏 语言 产生 重要 影响 。 
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6.1 Hi 


从 2005 年 开始 ， 研 究 人 员 就 开始 广泛 地 对 文本 蕴涵 识别 (Recognizing Textual En- 
tailment, RTE) 任务 进行 研究 ， 这 个 任务 在 没有 约束 参与 者 使 用 特定 表达 或 推理 方法 的 
情况 下 专注 于 提高 通用 文档 推理 的 能 力 。 这 个 自然 语言 处 理 的 子 领域 已 经 获得 了 很 好 的 发 
展 前 景 ， 因 为 很 多 系统 性 能 有 稳定 的 提升 并 且 该 问题 得 到 了 广泛 的 研究 。 大 量 研 究 人 员 对 
问题 本 身 定义 的 一 些 性 质 和 解决 这 些 问题 的 方法 的 特点 展开 了 研究 。RTE 的 解决 方案 在 
其 他 NLP 应 用 和 更 具 挑 战 性 的 自然 语言 理解 (Natural Language Understanding, NLU) 
任务 上 有 实际 的 使 用 价值 。 例 如 阅读 学 习 [1] 和 机 器 阅读 [2] 已 经 出 现 ， 它们 同样 有 相 
似 的 问题 需要 解决 。 让 我 们 开始 研究 这 个 领域 吧 ， 这 真 让 人 激动 。 

在 众多 NLP 任务 中 ,特别 是 对 于 那些 能 够 从 集成 的 背景 知识 中 获 益 的 任务 ,文本 推断 
能 力 的 高 低 对 系统 性 能 起 关键 作用 。 问 答 系 统 有 潜在 可 能 成 为 下 一 代 搜 索引 擎 ， 但 是 它 本 身 
具有 局 限 性 ， 特别 是 在 处 理 非 事 实 性 问题 的 时 候 。 并 且 ， 对 人 类 而 言 ， 从 一 系列 纯 文本 文档 
(例如 新 闻 类 文章 ) 中 提取 出 感 兴趣 的 事实 (例如 ,，“ 某 个 在 公司 X 工作 的 员工 ”) 包含 深度 
抽象 、 综 合 以 及 常识 的 应 用 三 个 过 程 。 因 此 ， 对 于 软件 而 言 ， 它 也 同样 需要 执行 这 些 过 程 。 

在 这 一 人 草 中 ， 我 们 会 明确 一 个 框架 ,在 这 个 框架 下 我 们 能 设计 和 构造 一 个 RTE 系统 。 
首先 ， 我 们 定义 一 个 RTE 问题 ， 然 后 概要 说 明 它 在 NLP 其 他 任务 上 的 应 用 。 接 着 我 们 为 
RTE 定义 一 个 框架 ， 并且 展示 它 是 如 何 融 入 那些 已 经 在 成 功 的 RTE 系统 上 使 用 的 技术 ， 
我 们 还 会 描述 在 RTE 领域 的 关键 研究 (主要 集中 于 系统 开发 ), 并 且 还 会 展示 每 个 系统 如 
何 关 联 到 我 们 所 定义 的 框架 上 。 最 后 ， 我 们 陈述 了 在 RTE 研究 上 的 紧迫 挑战 和 一 些 有 用 
的 资源 。 

我 们 假定 读者 已 经 熟悉 机 器 学 习 和 它 的 一 套 训 练 、 开 发 和 测试 方法 的 基本 思想 ; 我 们 
关注 的 焦点 在 于 为 RTE 开发 一 个 应 用 时 遇 到 的 实际 困难 。 

我 们 为 RTE 框架 的 所 有 关键 步骤 提供 一 些 简单 的 算法 。 尽 管 它们 被 故意 简化 了 ， 因 
此 可 能 效率 不 是 特别 高 ， 但 用 来 构造 一 个 基本 的 RTE 系统 还 是 足够 的 ， 并 且 我 们 可 以 对 
它 进行 多 个 维度 的 扩展 。6. 4 节 讨 论 了 针对 RTE 不 同方 法 的 关键 研究 ， 我 们 在 一 个 高 层 
面 上 将 每 一 个 研究 方向 都 映射 到 我 们 的 框架 上 (完整 的 应 用 细节 超出 了 本 章 的 范围 ， 请 参 
考 引用 文献 的 工作 )。 这 种 映射 允许 我 们 开发 与 系统 相关 的 其 他 方面 ， 从 而 实现 对 我 们 最 
感 兴趣 的 方法 的 跟 中 研究。 


6.2 文本 识别 蕴涵 任务 


这 一 小 节 定 义 RET 任务 ， 解 释 这 一 定义 的 优 缺 点 ， 并 表明 这 个 问题 重要 的 原因 。 我 们 
展示 了 RTE 如 何 应 用 在 一 系列 的 NLP 任务 中 ， 并 介绍 这 些 应 用 的 一 些 具 体例 子 。 
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6.2.1 问题 定义 


在 这 一 章 中 , 我 们 所 解决 的 RTE 任务 的 形式 化 描述 是 由 Dagan, Glickman 和 Magni- 
ni [3] 征 义 的 ， 具 体 如 下 ， 

定义 6-1 文本 蕴涵 (textual entailment) 是 指 文 本 对 之 间 的 指向 关系 ， 用 符号 TR 
WAME, H 互 表示 被 芍 涵 的 文本 ， 也 就 是 假设 。 如 果 互 的 意思 能 够 从 人 中 推导 出 
K., BARUA TARH., Dix FEAR AREA TIAE. 

人 研究 人 员 指 出 这 个 不 太 正式 的 定义 是 基于 (和 假定 ) 普通 人 赋 理 解 语言 又 知道 一 
用 的 背景 知识 。 

一 个 蕴涵 对 由 一 个 文本 本 和 一 个 假设 电 组 成 ; 通常 ， 互 是 一 个 短文 本 ， 而 江 是 一 个 
跨度 更 大 的 文本 。 图 6-1 展示 了 一 个 实例 文本 和 三 个 假设 。 每 个 蕴涵 对 的 标签 是 由 多 个 人 
工 标 注 完成 的 ; 在 标注 过 程 中 我 们 并 不 明确 要 求 有 背景 知识 ， 不 过 它 仍然 是 一 个 潜在 因 
素 。 通 常 我 们 获取 的 知识 是 静态 的 ， 例 如 因果 关系 或 著名 城市 和 地 标的 位 置 (这 些 知识 不 
会 随 着 时 间 变 化 ) ， 而 不 是 一 些 会 随 着 时 间 变 化 的 事实 ， 例 如 现任 美国 总 统 的 名 字 。 

RTE 任务 的 规范 也 要 求 将 文本 作为 推断 一 个 假设 是 否 为 事实 的 固有 组 成 部 分 : 尽管 
背景 知识 可 以 扩充 文本 表示 的 内 容 ， 但 不 能 完全 取代 它 。 我 们 举 个 例子 ， 如 果 一 个 RTE 
系统 使 用 了 从 维基 百科 抽取 的 一 些 事实 ， 这 些 事实 可 能 包含 一 个 声明 ， 该 声明 确定 了 一 个 
当红 电影 明星 的 国籍 ， 这 其 实 就 等 同 于 一 个 假设 声明 。 然 而 ， 如 果 在 文本 中 没有 出 现 支 持 这 
一 事实 的 证 据 ， 那 么 即使 假设 本 身 是 一 个 “真实 ”的 事实 ， 蕴 涵 标 签 也 会 被 标记 为 非 蕴 涵 。 

一 个 二 元 的 RTE 任务 要 求 系统 将 每 个 蕴涵 对 标注 为 缠 涵 或 不 蕴涵 ， 也 就 是 说 标注 T 
AAH, RE TARA. TER 6-1 中 ， 文 本 蕴涵 假设 0. 但 是 既 不 蕴涵 假设 2 也 不 蕴涵 
假设 3。 


IR 


常 


文本 : BMI 以 20 亿美 元 购买 总 部 位 于 休斯顿 的 LexCorp 公司 的 行为 引起 了 证 券 交 易 商 大 规模 抛 
售 ， 因 为 他 们 寻求 将 风险 降 至 最 低 。 自 2008 年 以 来 ，LexCorp 一 直 是 员工 持 股 的 公司 。 


假设 1: BMI 收购 了 一 家 美国 公司 。 
假设 2: BMI 花费 了 34 亿美 元 购买 了 员工 持 股 的 LexCorp 公司 。 
假设 3. BMI 是 一 家 员工 持 股 的 公司 。 

图 6-1 一 些 有 代表 性 的 RTE 实例 


三 元 RTE 任务 引 作 了 牙 盾 的 概念 。 我 们 基于 Marneffe, Rafferty 和 Maning [4] 来 
定义 蕴涵 中 矛盾 的 概念 。 

定义 6-2 如 果 一 个 人 能 够 根据 文本 工 表 述 的 关系 或 事件 推出 五 描述 的 关系 或 事件 有 
很 大 可 能 是 假 的 ， 那 么 我 们 认为 一 个 歼 涵 对 中 的 假设 与 文本 了 是 矛盾 的 。 

一 个 三 元 的 RTE 任务 要 求 系统 将 每 个 列 涵 对 标注 为 蕴涵 、 矛 盾 或 未 知 ， 也 就 是 说 ， 
MA TAMA. RA H 与 了 相 矛 盾 ， 或 者 给 定 工 时 互 是 否 为 真 未 知 。 在 图 6-1 中 ， 文 本 
蕴涵 假设 1; B25 TMP: 从 工 所 给 出 的 信息 中 ， 无 法 得 知 假设 3 是 否 为 真 。 

任务 的 难 易 取决 于 所 选 定 的 蕴涵 对 ， 并 且 设 计 一 个 合适 的 语料库 并 不 容易 。PASCAL 
(Pattern Analysis, Statistical Modelling and Computational Learning)? 和 美国 国家 标准 及 
技术 研究 所 (National Institute of Standards and Technology, NIST)9 在 语 料 的 制作 过 程 
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中 面临 很 大 的 挑战 。 除 了 RTE 4 外 所 有 的 语 料 都 有 独立 的 开发 和 测试 部 分 ， 每 一 个 部 分 
都 包含 600 一 800 个 蕴涵 对 ; RTE 4 只 有 一 个 部 分 ， 包 含 1000 个 蕴涵 对 。 所 有 这 些 语 料 都 
是 均衡 的 ， 大 约 50% 的 标签 属于 蕴涵 ，50% 的 标签 不 属 非 蕴涵 。 在 RTE 4 和 RTE 5 中 ， 
非 蕴 涵 的 实例 进一步 被 划分 为 两 类 : 未 知 的 和 矛盾 的 (分 别 占 全 部 实例 的 35% 和 15%). 

每 个 语 料 定义 了 3 一 7 个 任务 来 进一步 划分 这 些 数 据 。 每 个 任务 与 一 个 领域 相关 联 ， 
该 任务 的 实例 从 这 个 领域 中 获得 (例如 ， 问 答 系 统 QA、 信 息 抽取 E; 一 些 文献 描述 了 面 
对 每 个 挑战 的 更 多 细节 ， 例 如 Bentivogli 等 15])。 系 统 的 性 能 随 着 任务 的 变化 而 变化 ， 
表明 不 同 任务 的 实例 之 间 有 显著 的 质量 差别 ， 但 是 因为 任务 标签 在 部 署 的 RTE 应 用 中 不 
可 用 ， 所 以 我 们 在 这 里 不 考虑 它 。( 如 果 存 在 任务 信息 ， 那 么 利用 它 来 扩展 这 里 描述 的 框 
架 实 现 就 很 容易 ， 扩 展 要 么 引入 一 个 特征 来 表示 该 任务 ， 要 么 在 每 一 个 任务 中 分 别 使 用 调 
参 和 训练 过 的 推理 组 件 。) 

除 此 之 外 , 在 RTE 3 (fH. FSG) 和 RTE5 (搜索 ) 中 引信 了 一 些 试点 任务 。 了 矛盾 
任务 是 RTE 4 和 RTE 5 中 主要 任务 的 一 部 分 。RTE 5 同样 引入 了 一 个 搜索 试点 任务 ， 这 
里 我 们 就 不 详 述 了 (更 多 细节 请 参考 Bentivogli 等 [5]). 

在 这 些 语 料 上 性 能 较 好 的 系统 可 以 认为 是 能 够 很 好 地 “理解 ”自然 语言 文本 SS 。 针 对 
两 个 最 新 的 挑战 赛 (RTE 4 和 RTE 5), 性 能 最 好 的 系统 在 二 元 任务 (蕴涵 与 非 蕴 涵 ) 上 
能 达到 74% 的 正确 率 ， 在 三 元 任务 中 达到 68%. 

这 章 的 剩 下 部 分 我 们 要 确定 RTE 任务 中 涉及 的 挑战 ， 定 义 一 个 通用 的 框架 来 处 理 它 ， 
并 描述 RTE 中 的 相关 研究 ， 显 示 它 如 何 融 入 这 个 框架 。 


6.2.2 RTE 的 挑战 


考察 人 类 在 决定 蕴涵 对 的 蕴涵 标签 时 所 采取 的 不 同步 又 是 非常 有 局 发 性 的 ， 如 图 6-1 
所 示 。 

为 了 识别 文本 蕴涵 假设 1， 人 类 读者 必须 识别 以 下 4 点: D 假设 中 提 到 的 公司 能 够 匹 
配 LexCorp; 2) 位 于 休斯顿 瞳 指 美国 ;3) 识别 象征 性 关系 购买 ; 4) 判断 “A RBM” 
Hide “BHA A”. 

要 识别 出 假设 2 与 文本 矛盾 ， 需 要 与 上 述 类 似 的 步 又。 不 同 的 地 方 在 于 ， 读 者 必须 整合 
以 下 信息 ， 首 先 LexCorp 是 一 个 员工 控股 的 公司 ， 其 次 必须 能 够 推理 出 尽管 文本 和 假设 中 的 
购买 价格 不 同 ， 但 是 它们 指向 同一 笔 交 易 的 概率 是 非常 高 的 ， 因 此 假设 2 与 文本 矛盾 。 

假设 3 包含 了 文本 的 全 部 文字 ， 但 是 断言 了 一 个 无 法 从 已 知 的 证 据 中 识别 出 来 的 关 
系 ， 所 以 它 的 标签 是 未 知 : 有 可 能 BMI 是 一 家 员工 控股 的 公司 ， 但 也 有 可 能 不 是 。 

这 些 步 台中 ， 有 些 与 NLP 或 者 计算 语言 学 社区 定义 的 其 他 任务 相关 ， 例 如 命名 实体 
识别 (识别 LexCorp 和 BMI 是 公司 ) 、 共 指 (LexCorp 的 不 同 表示 指 的 是 相同 的 内 在 实 
体 ) 、 语 义 角色 标注 (是 BM 购买 ， 而 不 是 LexCorp)。 其 他 的 步骤 可 能 不 相关 。 相关 任 
务 还 没有 独立 地 取得 好 的 进展 ， 尽 管 它们 与 已 有 问题 的 定义 相关 。 文 本 推理 步骤 可 能 是 所 
有 步 又 中 最 难 的 ， 因 为 它 需 要 利用 我 们 对 这 个 世界 的 理解 来 识别 因果 关系 、 荀 涵 关 系 ， 并 
将 多 个 语句 抽象 成 一 个 通用 的 原则 。 

尽管 用 计算 机 的 方法 来 应 对 RTE 的 挑战 并 不 需要 按照 这 些 步骤 或 模仿 这 种 能 力 ， 但 
由 于 不 使 用 人 类 人 处理 过 程 的 系统 只 取得 了 有 限 的 成 功 ， 这 激励 研究 者 尝试 由 人 类 处 理 过 程 


全 ”这 个 假设 基于 标准 的 机 器 学 习 评 测 方法 ， 即 评测 系统 性 能 时 要 使 用 不 在 训练 及 开发 集 内 的 数据 。 
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的 直觉 激发 的 分 治 方法 。 在 分 离 一 些 特别 能 力 上 ， 研究 者 已 经 获得 了 一 些 成 功 ， 例如 归 一 
化 数字 数量 (日 期 、 速 率 、 比 例 、 计 数 )， 从 语言 学 的 角度 借助 一 些 解 决 方案 来 促进 问题 
的 解决 ， 例 如 语法 分 析 器 和 诸如 命名 实体 识别 等 浅 层 语义 分 析 工 具 。 

也 许 有 人 争论 图 6-1 所 示 的 例子 有 可 能 通过 简单 的 词汇 匹配 来 解决 ， 但 是 很 明显 ， 文 
本 可 变 为 和 假设 1 在 用 词 上 截然 不 同 ， 同 时 假设 1 仍 保持 蕴涵 关系 。 相 反 地 ， 可 使 文本 和 
假设 2 在 词汇 上 重大 非常 多 ， 同 时 保持 它们 之 间 互 相 矛 盾 的 关系 。 这 种 直觉 由 RTE 挑战 
赛 的 结果 所 证 实 ， 即 使 用 其 他 的 、 更 结构 化 分 析 的 系统 的 性 能 可 以 超过 基于 词汇 相似 度 的 
系统 ， 细 节 将 在 6.2.3 TTA. 


6.2.3 评估 文本 蕴涵 系统 性 能 


定义 6-1 被 PASCAL 和 NIST 作为 6 项 研究 挑战 赛 的 基础 。 这 些 语料库 向 公众 开放 ， 
其 中 前 3 项 不 含 限制 ， 接 下 来 的 3 项 需要 接受 用 户 许 可 〈 详 情 查看 先前 提 到 的 网 址 )。 第 3 
次 挑战 赛 ， 即 RTE 3， 按 照 定义 6-2 设置 了 一 个 试验 任务 。RET 4 和 RTE 5 主任 务 的 语 
料 库 中 都 引入 了 矛盾 信息 ， 因 此 同时 按照 二 元 和 三 元 预测 任务 进行 标记 号 。 

这 些 研 究 挑战 赛 提 高 了 人 大 们 对 RTE 问题 的 兴趣 度 并 使 对 该 问题 的 研究 有 了 长 足 的 发 展 。 
我 们 在 6.4 节 中 给 出 了 一 些 有 用 的 例子 ， 现 在 我 们 对 最 高 水 平 系统 的 性 能 做 一 般 介 绍 。 

6-2 表明 2009 年 对 所 有 5 个 RTE $k 
战 赛 的 二 元 蕴涵 任务 的 结果 所 做 的 概要 
为 了 便于 比较 ， 对 于 每 一 个 数据 集 的 词法 
基准 系统 (Ck Á Mehdad 和 Magnini [ 6 |) 
的 性 能 也 一 同 给 出 。 

由 于 每 年 的 语 料 (来 自 于 不 同 的 领域 或 
按照 不 同 的 大 纲 ) 不 同 ， 所 以 很 难 比 较 不 同 si 
年 份 的 结果 。RTE 4 Al RTE 5 的 平均 文本 长 
度 有 显著 的 增加 ， 各 自 增 加 了 40 和 100 个 单 
词 ， 这 相对 于 短文 本 的 蕴涵 对 更 具有 挑战 
性 。 词 法 基准 系统 使 用 了 基于 假设 和 文本 词 
之 间 重 合 度 的 阔 值 ， 在 到 目前 为 止 的 四 ~ 五 Qus 
个 挑战 赛 中 ， 它 获得 了 55%~58% WR, "y! 





RTE-2 RTE-3 RIE-4 RTE-5 


RTEPEAR FE 
ELECSURIRE IC BR, cem (2007) 的 结 采 明 图 6-2 2005— 2009 年 的 PASCAL 文本 蕴涵 识别 挑 
比 都 有 提高 ， 表 明 这 是 一 个 “更 容易 ”的 列 中 ,我 们 给 出 了 参与 系统 准确 度 的 五 点 统计 
涵 语 料 库 。 在 所 有 的 情况 里 ， 基 准 分 数 小 于 结果 。 另 外 也 给 出 了 词法 基准 系统 的 结果 


或 等 于 每 一 个 挑战 赛 的 中 等 分 数 。 

系统 性 能 的 上 限 也 相当 一 致 。RTE 4 Al RTE 5 中 使 用 的 更 长 的 文本 增加 了 任务 的 难度 。 
更 长 的 文本 会 引信 更 多 无 关 信 号 (额外 的 与 蕴涵 决策 无 关 的 单词 、 短 语 和 人 句子) 增加 了 RTE 
系统 的 处 理 负 担 ， 并 且 扩 大 了 蕴涵 样 例 的 范围 ， 更 广 的 范围 需要 整合 多 个 句子 的 信息 。 

由 于 RTE 实验 数据 集 的 不 兼容 性 ， 除 了 根据 相对 较 好 的 系统 的 性 能 来 估计 评测 任务 的 
难度 以 及 观察 一 些 系统 是 否 明显 超过 基准 系统 外 ， 我 们 很 难 在 数字 上 得 出 强 有 力 的 结论 。 


O ”在 本 章 写作 的 时 候 ，RTE 6 EHT. 
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6.2.4 文本 蕴涵 解决 方案 的 应 用 


许多 NLP 问题 可 以 按照 文本 蕴涵 识别 的 方式 形式 化 。RTE 与 自动 摘要 有 明显 的 相关 
性 [7]， 自 动 摘 要 系统 需要 从 一 个 或 多 个 文档 中 摘要 出 人 类 可 读 的 信息 。 在 判断 一 个 新 名 
子 包 含 的 信息 是 否 已 经 被 正在 进行 的 摘要 表达 过 (元 余 检 测 ) Bp. 该 子 任务 可 以 被 认为 是 
一 个 蕴涵 对 ， 它 的 当前 摘要 可 以 理解 为 文本 ， 新 的 句子 可 以 理解 为 假设 。 如 果 了 没有 蕴涵 
及 ,那么 该 句子 就 包含 新 的 信息 并 且 会 集成 到 摘要 中 去 。 

信息 提取 的 任务 是 在 一 组 自然 语言 文本 文档 中 识别 一 个 固定 关系 集合 中 的 实例 ， 例 如 
“为 什么 工作 ”和 “在 哪里 出 生 ”。 如 果 我 们 用 较 短 的 句子 表达 关系 ， 例 如 “一 个 人 为 某 组 
织 工 作 ” 和 “一 个 人 出 生 于 某 地 ”， 那 么 源 文 档 中 的 文本 便 成 为 了 蕴涵 对 里 面 的 文本 ， 重 
新 表达 的 关系 便 成 为 了 蕴涵 对 里 面 的 假设 。 这 样 RTE 系统 就 可 以 直接 应 用 了 。 类 似 地 ， 
要 求 系 统 自动 地 发 现 候选 答案 (来 自 于 固定 的 文档 集合 中 的 文档 章节 ) 的 问答 系统 ， 同 样 
可 以 用 相同 的 方法 来 重新 表达 : 问题 如 “美国 南部 最 大 的 城市 是 什么 ?” 可 以 重新 表达 为 
一 个 短 的 陈述 句 :“ 美 国 南部 最 大 的 城市 是 一 个 城市 ”。 这 句 话 变 成 了 假设 ， 并且 文档 集合 
的 部 分 内 容 一 一 典型 的 是 段落 一 一 成 为 了 包含 该 假设 的 蕴涵 对 集合 的 文本 。 一 个 RTE 系 
统 能 够 直接 用 于 识别 真实 的 答案 。 

当然 ， 在 信息 提取 和 问答 任务 中 ， 这些 朴 素 的 重新 形式 化 的 方法 和 问答 任务 是 不 充分 
的 ， 因 为 RTE 的 解决 方案 通常 要 求 密集 型 的 数据 。 然 而 ,直觉 是 可 行 的 ,研究 人 员 已 将 
RTE 应 用 到 其 他 NLP 任务 上 。 

1. 问答 系统 

Harabagiu 和 Hickl [8] 直接 应 用 RTE 系统 来 对 问答 系统 中 的 候选 答案 进行 重 排序 。 
基本 思想 很 简单 : 在 一 个 已 经 存在 的 问答 系统 中 返回 最 佳 的 候选 答案 。 虽 然 最 佳 候选 可 能 
不 是 正确 答案 ， 但 是 在 许多 情况 下 正确 答案 位 于 返回 的 候选 答案 集合 中 。 

Harabagiu 和 Hickl 使 用 RTE 系统 来 评估 每 一 个 候选 答案 。 如 前 面 所 说 的 那样 ， 他 们 
的 系统 首先 采用 一 个 基于 规则 的 方法 将 输入 的 问题 转换 为 一 个 简短 的 陈述 句 。 然 后 创建 一 
个 蕴涵 对 集合 ， 其 中 将 系统 返回 的 候选 答案 合并 作为 蕴涵 对 的 文本 ， 将 转换 的 问题 作为 强 
涵 对 的 假设 。RTE 系统 接 下 来 依次 应 用 在 每 一 个 蕴涵 对 上 上， 那些 能 够 蕴涵 转换 文本 的 候 
选 蕴 涵 对 移 到 列表 的 顶端 ， 非 蕴涵 的 则 移动 到 底部 。 研 究 表 明 ， 添 加 文本 蕴涵 的 组 件 能 够 
将 系统 的 准确 率 从 30. 69638 7E 28 142.7%. 

将 查询 用 类 似 Harabagiu 和 Hickl 的 方法 进行 转换 后 ，Celikyilmaz、Thint 和 Huang [9 | 
使 用 类 似 蕴涵 的 组 件 来 提取 候选 问题 -回答 对 基于 特征 的 表示 。 他 们 使 用 从 蕴涵 对 比 中 得 
到 的 实 值 特征 向 量 来 计算 大 集合 中 问题 -回答 对 间 的 相似 度 值 。 这 些 值 用 作 图 中 连接 表示 
问题 -回答 对 的 节点 的 边 的 权重 。 问 题 -回答 对 的 〈 少 量 ) 子 集 拥 有 正确 答案 的 标签 ， 剩 余 
节点 的 标签 需要 使 用 半 监 督学 习 方法 得 到 。 

2. 关系 的 穷 举 搜索 

在 许多 信息 采集 任务 中 ， 如 专利 搜索 、 事 故 报告 挖掘 、 在 与 合作 者 分 享 的 没有 经 过 清理 
的 文档 中 检测 秘密 信息 ， 有 必要 找到 所 有 与 给 定 的 概念 相关 的 文本 片段 。 这 涉及 寻找 直接 或 
间接 讨论 该 概念 的 所 有 段落 ， 并 过 滤 掉 那些 表面 上 相似 ， 但 实际 上 有 着 不 同意 义 的 段落 。 

这 种 信息 需要 直接 映射 为 从 大 规模 文本 语料库 中 识别 蕴涵 的 段落 。 然 而 ， 它 需要 扩充 
文本 蕴涵 系统 ， 从 而 将 成 对 的 文本 假设 决策 转换 为 基于 搜索 的 蕴涵 框架 。 因 为 大 多 数 成 功 
的 RTE 系统 使 用 大 量 的 NLP 资源 和 计算 复杂 度 高 的 推理 算法 ， 朴 素 的 方法 〈 对 每 个 文档 
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的 每 个 段落 ， 测 试 它 是 否 蕴 涵 表 示 目 标 信 息 陈 述 的 集合 中 的 任何 一 个 ) 是 不 切实 际 的 。 
Roth, Sammons 和 Vydiswaran [10] 定义 了 一 个 集中 的 文本 蕴涵 的 方法 ，SEER 
(Scalable Entailment Relation Recognition， 可 扩展 蕴涵 关系 识别 )， 分 为 两 个 阶段 : 语义 


检索 和 蕴涵 识别 。 图 6-3 为 该 方法 的 示意 图 。 












it 


关系 查询 


[em 


图 6-3 SERR 框架 [10] 


该 算法 在 图 6-4 中 简 述 。 在 这 个 方法 中 ， 文 本 语料库 先进 行 预 处 理 ， 以 发 现 语义 成 
分 ， 如 命名 实体 ‘人 、 地 点 、 组 织 、 数 字数 量 等 )。 为 了 方便 快速 检索 ， 它 们 作为 语义 单 
元 被 索引 。 用 户 表 达 的 信息 需求 作为 一 个 关系 查询 ， 可 以 利用 同义词 、 蔡 代 名 称 以 及 其 他 
类 似 的 关键 词 的 语义 来 扩展 。 这 个 查询 接 下 来 用 于 从 语料库 检索 文本 段落 。 根 据 蕴 涵 模 块 
的 处 理 结果 来 判断 文本 是 否 蕴 涵 给 定 的 查询 ， 并 将 蕴涵 文本 片段 作为 输出 的 结果 。 语 义 检 
索 有 助 于 提高 北 涵 文本 片段 的 召回 率 ，RTE 模块 对 结果 进行 过 滤 从 而 提高 整体 的 准确 率 。 


K RTE 1、2 和 3 中 的 信息 检索 和 信息 抽 
取 的 子 任务 的 所 有 假设 作为 我 们 实验 评测 的 语 
料 ， 作 为 信息 的 需求 。 来 自 相 同 的 蕴涵 对 的 所 
有 文本 构成 一 个 文档 集合 。 检 索 组 件 找到 每 一 
个 假设 最 相关 的 文档 ， 并 且 为 了 识别 相关 的 文 


档 ，RTE 模块 将 这 些 返回 的 结果 标记 为 理 酒 或 


4 dE ZR e 

当 使 用 与 RTE 挑战 赛 中 实际 样 例 相 同 的 假 
设 - 文 本 对 来 评估 整体 分 类 性 能 时 ， 结 果 表 明 系 
统 在 每 个 挑战 赛 中 都 能 位 列 公 布 结 果 中 的 前 三 
名 。 这 个 体系 结构 也 降低 了 比较 的 计算 次 数 ， 
相对 于 朴素 方法 的 3 800 000 个 (使 用 RTE 模 
块 对 所 有 的 假设 和 文本 进行 比较 )，SERR 系统 
降低 到 了 仅 有 40 000 个 。 

3. 机 器 翻译 

由 RTE 研究 人 员 开 发 的 技术 也 应 用 到 了 机 天 
翻译 (MT) 方面 的 评测 任务 中 。Pad6 等 [11] 
缘 鉴 了 文本 蕴涵 的 思路 提出 了 新 的 候选 翻译 质 
量 的 自动 评估 方法 。 机 器 翻译 评测 使 用 统计 





SERR 算法 

wE: 
输入 : X AK D 
输出 : D 上 的 索引 (D 
对 每 个 文本 dED 

用 局 部 语义 内 容 标 注 d 
构建 D 上 的 索引 (I) 
MA: 信息 需求 S 


扩展 的 词汇 化 检索 (ELR) (5): 
R-—O 

用 语义 相似 的 词 来 扩展 8 

从 建立 搜索 查询 gs 


Rag, 的 排 在 前 有 个 的 文本 的 索引 《也 
ik [E] R 


SERR: 
HEE A-Ø 
for each 查询 s€ S 
R-—ELRs) 
答案 集 A,<0 
for each 结果 rc R 
使 用 NLP 资源 标注 %， r 
dn r Hes 
A,<A, Ur 
A,«+ AU (A;) 


图 6-4 SERR 算法 [10] 


方法 来 评估 机 器 翻译 系统 给 出 的 翻译 结果 和 人 工 给 出 的 参考 译文 的 相似 度 ， 因 为 利用 人 工 
去 评估 大 量 的 机 器 译文 需要 耗费 巨大 的 资源 ， 这 样 系统 在 大 规模 语 料 上 的 性 能 很 难得 到 快 
速 评 价 。 主 流 的 相似 度 计 算 方法 是 基于 ?元 组 的 方法 ， 这 种 方法 与 人 工 判断 的 结果 有 合理 的 
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相关 性 ， 但 距离 完美 还 有 很 长 的 距离 ， 尤 其 是 因为 该 方法 没有 考虑 待 评 测 译文 的 全 局 结构 。 

Pado 等 想 出 了 一 种 能 够 考察 结构 特点 的 新 方法 ， 该 方法 使 用 与 Chambers 等 [12] F 
发 的 文本 蕴涵 系统 中 相似 的 特征 ， 他 们 的 直观 想法 是 : 候选 译文 与 参考 译文 应 该 是 复述 关 
系 ， 因 此 二 者 应 该 互 为 蕴涵 关系 。 在 候选 译文 中 丢失 了 信息 就 意味 着 它 不 能 蕴涵 参考 译 
文 ， 而 候选 译文 中 添加 的 信息 就 意味 着 参考 译文 不 能 蕴涵 候选 译文 。 质 量 差 的 翻译 会 引起 
两 个 方向 上 的 蕴涵 匹配 失败。 他 们 使 用 基于 对 齐 分 数 、 形 态 、 极 性 和 时 态 不 匹配 、 语 义 关 
系 、 实 体 和 日 期 兼容 性 以 及 其 他 信息 的 特征 。 

为 了 评估 这 种 新 方法 ， 他 们 使 用 了 来 自 MT 研讨 会 上 面 的 数据 。 根 据 标 准 度量 来 进行 
人 工 判 断 ， 结 果 表 明 Spearman 相关 系数 有 了 显著 提升 。 

Mirkin 等 [13」 使 用 蕴涵 来 翻译 未 知 的 术语 。 当 一 个 术语 相对 不 常见 ， 抑 或 是 从 资源 
稀缺 的 语言 进行 翻译 时 ， 那 么 这 个 词 可 能 不 会 出 现在 机 器 翻译 系统 使 用 的 短语 表 中 。Mir- 
kin 等 利用 词法 蕴涵 规则 将 源 译文 转换 成 更 加 通用 的 形式 来 解决 这 个 问题 。 他 们 证 明了 这 
个 方法 的 可 行 性 ， 采 用 的 方法 是 使 用 了 一 个 在 法 语 或 英语 的 平行 语 料 中 训练 得 到 的 机 器 翻译 
模型 。 接 下 来 他 们 将 这 个 模型 应 用 到 包含 很 多 未 知 术语 的 英文 新 闻 的 句子 中 ， 这 些 句 子 来 自 
于 不 同 的 领域 ， 与 训练 模型 的 数据 领域 不 同 。 

使 用 英语 作为 源 语言 使 得 他 们 能 够 使 用 WordNet [14]， 它 是 一 个 大 规模 的 英语 本 体 库 ， 
通过 同 义 关系 、 上 位 关系 和 很 多 其 他 词法 关系 建立 词 的 连接 。 他 们 使 用 同 义 关系 来 生成 未 知 
词 的 复述 并 利用 上 位 关系 从 英文 句子 中 生成 蕴涵 (更 加 通用 ) 文本 。 然 后 将 这 些 带 有 未 知 词 
的 句子 的 不 同 版 本 的 法 语 译文 质量 与 仅 使 用 更 加 标准 的 复述 资源 的 译文 质量 做 对 比 。 

结果 表明 基于 文本 蕴涵 的 方法 比 基 于 复述 的 方法 在 对 未 知 术语 的 覆盖 方面 有 高 达 50 26 
的 提升 ; 翻译 质量 相 比 于 忽略 未 知 术语 的 时 候 也 有 所 提升 ， 其 中 有 额外 的 15.6% 的 机 器 译 
文 能 够 被 用 户 接受 ， 而 正确 翻译 的 数目 仅 下 降 了 2.7%。 


6.2.5 其 他 语言 中 的 RTE 研究 


今 ， 很 少 有 非 英 语 的 蕴涵 语料库 ， 其 中 两 个 非 英 语 RTE 数据 源 是 EVALITAS 和 
CLEF (Cross-Language Evaluation Forum)? 。 意 大 利 特 兰 托 的 FBK-Irst 举行 的 自然 语言 
处 理 评测 程序 评测 了 包含 RTE 在 内 的 多 种 意大利 语 问 题 的 自然 语言 处 理 技术 。CLERF 的 
回答 验证 测试 使 用 RTE 的 形式 化 来 推动 问答 系统 技术 。CLEF 开发 了 一 个 语料库 ， 将 候 
选 回 答 以 及 表达 成 陈述 句 的 问题 组 成 对 ， 其 思想 是 RTE 系统 可 以 根据 每 个 候选 答案 是 否 
蕴涵 重新 表达 的 问题 来 检测 到 正确 答案 。CLEF 有 有 德语、 英语 、 西 班 牙 语 、 法 语 、 意 大 利 
语 、 荷 兰 语 和 和 葡萄牙 语 的 语料库 。 

NLP 社区 在 为 其 他 语言 开发 的 、 能 与 英语 比美 的 NLP 资源 中 取得 了 稳定 的 进展 。 欧 洲 
语言 资源 协会 (European Language Resources Association) 9 以 及 亚洲 自然 语言 处 理 联盟 
(Asian Federation of Natural Language Processing) 9 提供 了 很 好 的 信息 源 。 但 是 也 有 不 少 语言 
尚未 建立 自己 的 词性 标注 器 和 语法 分 析 器 ， 这 需要 研究 人 员 在 人 研究 蕴涵 时 使 用 更 浅 的 信息 。 

我 们 在 6. 3 节 中 提 到 的 框架 需要 一 个 特定 的 假设 : 当 有 多 个 语 料 资源 时 ， 我 们 假设 它 
们 在 确定 单词 边界 之 间 时 是 一 致 的 。 但 是 在 现实 中 ， 即 使 是 英语 也 可 能 在 原始 输入 文本 的 


http://evalita, fbk. eu/te. html, 
http; / /nlp. uned. es/clef-qa/ave/, 
http://www. elra. info/ 。 
http://www. afnlp. org/ 。 


ao 0O 


217 


218 


219 


158 Rp S te 


分 词 中 出 现 不 一 致 。 形 态 丰富 的 语言 ， 比 如 阿拉 伯 语 ， 同 一 个 词 可 以 分 割 出 不 同 的 前 级 和 
附着 语素 。 德 语 把 各 种 词 拼 成 复合 词 也 给 单词 边界 的 确定 带 来 困难 。 中 文 不 使 用 空格 进行 
分 词 ， 但 是 机 器 翻译 系统 这 样 的 NLP 应 用 把 它们 组 织 成 类 似 词 的 形式 。 

没有 一 成 不 变 的 解决 方案 ， 在 下 文 所 述 的 框架 中 ， 开 发 者 必须 按 需 要 来 确定 分 词 策 
略 ， 并 且 确 定 不 同 级 别 的 表示 能 够 与 所 选择 的 分 词 方法 相 适 应 。 如 果 使 用 了 带 有 冲突 的 分 
词 方法 的 资源 ， 开 发 者 必须 令 人 满意 地 解决 这 个 问题 。 假 设 满足 需要 的 条 件 ， 开 发 者 可 以 
根据 已 有 的 资源 ， 按 照 我 们 的 框架 来 实现 合适 的 解决 方案 。 


6.3 文本 蕴涵 识别 的 框架 

本 节 我 们 将 定义 一 个 灵活 的 RTE 程序 的 框架 ,我们 将 借鉴 Roth 和 Sammons [15] 
的 观点 。 详 细 地 描述 任何 一 个 真实 RTE 系统 的 实现 都 要 用 一 整 章 ， 因 此 ,我 们 只 描述 系 
统 ， 在 合适 的 时 机 给 出 样 例 算法 。 在 6.4 5. 我们 会 给 出 相关 的 研究 和 已 经 公布 的 具体 实 
现 的 细节 ， 并 且 讲 解 这 些 实现 如 何 适 应 我 们 的 框架 。 

我 们 在 这 里 讲 的 框架 旨 在 用 统一 的 方法 融合 已 有 的 〈 以 及 新 的 ) NLP 资源 ， 能 够 系 
统 地 开发 直接 且 复 杂 的 RTE 系统 。 框 架 的 另 一 目标 是 可 以 直接 支持 多 种 RTE 方法 的 实 
验 ， 如 在 6. 4 节 中 描述 的 研究 人 员 提 供 的 方法 。 

在 本 章 的 最 后 ， 我 们 提供 一 些 有 用 的 下 载 地 址 的 不 完全 列表 (大 部 分 都 有 非 商 业 用 途 的 
许可 )。 但 是 ， 我 们 避免 讲解 任何 一 种 具体 的 实现 。 我 们 关注 在 已 有 任务 中 表现 良好 的 系统 ， 
并 且 期 望 这 些 系统 能 够 输出 一 致 的 结果 。 因 此 你 可 以 选择 使 用 最 适合 你 需求 的 特定 系统 。 


6.3.1 BX 


在 真正 开始 设计 RTE 系统 的 框架 之 前 ， 先 考虑 有 什么 已 有 的 自然 语言 处 理 组件 能 够 
对 识别 蕴涵 有 好 处 。 我 们 关注 能 够 对 RTE 系统 有 明显 帮助 或 者 能 够 作为 RTE 系统 有 用 功 
能 的 基础 NLP 模块 。 我 们 只 考虑 具有 广泛 认同 的 输出 格式 的 NLP 组 件 。 

我 们 对 两 种 资源 特别 感 兴趣 : 能 够 为 文本 添加 语义 信息 的 资源 ， 如 命名 实体 标注 句 与 语 
法 分 析 器 。 另 一 种 是 能 够 比较 文本 区 间 ， 如 词 、 名 称 和 短语 等 的 资源 ， 并 且 可 以 给 出 一 些 相 
似 的 度量 。 我 们 将 前 者 称 为 标注 器 Gantt. ARAL. MARS (参见 6. 3. 3 TD. 

再 次 考虑 图 6-1 中 的 例子 以 及 人 类 推理 时 遵循 的 步骤 ， 以 此 来 指导 我 们 的 系统 所 具备 
的 能 力 。 第 一 步 ， 要 识别 出 词 “BMI” 和 “LexCorp” 是 两 家 公司 的 名 字 ， 这 个 信息 要 交 
给 命名 实体 识别 器 来 做 (参见 第 8 章 ) 。 第 二 步 ， 将 “位 于 休斯顿 ”联系 到 “美国 ”， 这 和 需 
要 一 个 至 少 在 词 级 别 的 事实 知识 库 。 第 三 步 ， 要 识别 规范 化 关系 “购买 "， 首 先 要 将 该 词 
识别 为 名 词 (通过 词性 标注 器 )。 需 要 一 个 词典 来 把 任意 的 动词 映射 到 它们 的 一 般 形式 上 。 
词典 的 一 个 可 能 选择 便 是 流行 的 本 体 词典 WordNet [16], 用 “派生 于 ”这 种 关系 来 识别 
动词 “购买 ”。 下 一 步 ， 为 了 与 结构 “BMI 收购 了 一 个 美国 公司 ” 相 比 较 一 一 这 个 结构 也 
可 以 用 句法 或 依存 分 析 器 获得 (参见 第 3 章 )， 需 要 解释 句法 结构 来 识别 主语 、 宾 语 以 及 
直接 宾语 一 一 规范 化 动词 的 论 元 。 另 一 种 选择 ， 可 以 通过 浅 层 语义 分 析 需 或 语义 角色 标注 
器 〈 参 见 第 4 章 ) 来 进行 该 步 又。 最 后 在 第 四 步 ， 为 了 识别 文本 蕴涵 假设 ， 必 须 将 两 个 名 
法 〈 或 浅 层 语义 ) 结构 进行 比较 。 

当然 其 他 资源 也 会 很 有 用 ， 一 个 成 功 的 RTE 系统 中 还 包括 : 

。 识别 以 及 规范 化 数 词 。 

。 识别 同一 给 定 的 命名 实体 的 不 同 表 达 〈 比 如 国际 商业 机 器 公司 指 的 是 IBM 而 不 是 BMD 。 
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。 确定 文本 中 有 哪些 实体 实际 指向 同一 实体 〈 也 称 为 共 指 消解 ， 在 第 8 章 中 描述 ) 。 

每 个 RTE 实现 基本 上 都 采用 已 有 系统 以 及 处 理 同 样 问题 的 自 建 模块 的 混合 。 

这 就 意味 着 一 般 的 RTE 框架 要 在 各 种 粒度 (从 单词 、 短 语 到 句子 ) 上 支持 各 种 文本 
缠 泣 对 的 标记 ， 还 要 使 用 特定 资源 来 比较 这 些 标注 。 


6. 3. 2 分 入 


之 前 描述 的 大 量 NLP 资源 都 假定 自然 语言 理解 任务 (大体 上 ) 是 可 以 分 解 的 : 我 们 
可 以 分 离 成 单独 的 问题 ， 然 后 一 个 一 个 处 理 这 些 问题 。 我 们 从 手工 标注 者 解决 语言 蕴涵 的 
步骤 中 得 到 局 示 ， 正 如 6.2.2 节 所 述 。 计 算 机 科学 中 其 他 领域 的 经 验 已 经 表明 了 分 治 思想 
的 强大 功能 ， 因 此 将 用 这 种 思想 来 引导 我 们 解决 RTE 问题 。 


6. 3.3 有 用 的 组 件 

在 这 里 我 们 描述 一 些 对 RTE 框架 十 分 有 用 并 且 广 泛 使 用 的 组 件 。 

1. NLP 分 析 的 多 视图 表示 

我 们 用 分 析 器 得 到 的 输出 来 定义 处 理 文本 的 成 分 ， 这些 成 分 可 以 通过 关系 相互 连接 。 
我 们 把 成 分 和 关系 的 任意 一 种 模式 称 为 结构 。 每 个 成 分 也 可 以 算 作 一 种 简单 的 结构 。 

我 们 用 每 个 分 析 器 资源 来 定义 它 自己 的 处 理 文本 的 视图 。 当 然 最 基本 的 视图 就 是 
Word 视图 。 我 们 要 求 Word 视图 由 词 元 表示 而 非 原 始 文本 ， 其 他 的 视图 都 按照 Word 视 
图 进行 规范 化 。 因 此 ， 每 个 成 分 必须 精确 对 应 一 个 词 索 引 集 合 ， 这 对 于 检测 不 同 视图 间 的 
对 应 关系 而 言 是 非常 方便 的 〈 比 如， 识别 语义 角色 标记 论 元 也 是 一 种 命名 实体 ) 。 

图 6-5 表示 了 系统 中 输出 的 结合 命名 实体 (NE)、 数 词 (NUM)、 语 义 角色 标记 (SRL) 
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分 析 、 单 词 以 及 它们 的 索引 生产 的 数据 结构 。 每 一 个 成 分 都 对 应 着 原文 中 的 单词 ， 并 且 包 含 
对 应 单词 的 索引 表 。 

一 般 来 说 ， 成 分 指定 了 类 型 (从 已 有 的 相似 度 度量 进行 选择 ) 。 一 个 或 多 个 属性 - 值 对 
表明 了 感 兴趣 的 信息 如 词 的 词性 以 及 原形 ， 它 们 可 以 用 于 相关 相似 度 度量 。 属 性 - 值 
对 还 表明 了 成 分 所 对 应 的 原始 文本 中 词 的 索引 。 在 这 个 例子 里 ，NE 成 分 的 类 型 和 值 都 是 
从 一 个 命名 实体 识别 器 的 输出 中 得 出 来 的 。 

NUM 成 分 是 对 数量 以 及 其 单位 的 规范 化 表示 ， 还 带 有 原文 中 对 应 词 元 的 索引 。 

SRL 视图 中 有 谓词 (P) 和 论 元 CAO 成 分 ， 通 过 代表 谓词 相关 论 元 角色 的 关系 来 进行 
连接 (A0 是 agent ， 或 者 语义 主语 ，Al patient ,或 者 语义 宾语 )。 这 些 角 色 与 句法 上 的 
主语 或 宾语 角色 不 同 ， 因 为 它们 不 受 如 被 动 语 态 等 的 影响 (详细 的 语义 角色 标注 见 第 A). 
注意 在 我 们 的 表示 中 ， 骨 套 是 允许 的 。 一 个 谓词 可 以 作为 男 一 个 谓词 的 论 元 (在 这 种 情况 
下 ， 比 如 谓词 say 以 谓词 buy 作为 它 的 语义 宾语 )。 论 元 成 分 没有 分 配角 色 ， 这 是 因为 一 个 论 
元 可 能 与 多 个 谓词 有 谓词 - 论 元 结构 关系 ， 而 且 在 不 同 的 关系 中 它 的 角色 也 可 能 不 同 。 

多 视图 表示 比 统一 、 单 视图 的 表示 有 许多 优势 。 每 个 资源 都 可 以 独立 于 其 他 资源 进行 
处 理 并 且 可 以 增 量 式 添 加 。 这 种 表示 十 分 灵活 : 如 果 我 们 想 因 不 同 目的 而 使 用 不 同 信 息 
源 一 一 正如 过 滤 时 的 情形 (参见 6. 3. 7 节 ) 一 一 这 很 直接 。 也 使 得 编写 处 理 多 视图 的 一 般 
算法 成 为 可 能 ， 而 无 须知 道 存在 哪 种 视图 。 最 后 ， 多 视图 表示 法 延 人 返 了 规范 化 阶段 : 把 不 
同 的 视图 整合 到 一 种 数据 结构 中 ， 就 要 解决 边界 和 关系 结构 不 一 致 的 问题 ， 将 这 些 决 策 延 
迟到 后 面 的 阶段 是 不 错 的 选择 例如 ， 在 推理 阶段 ， 当 有 足够 的 证 据 来 支持 一 个 决策 
时 。 如 果 需 要 ， 可 以 在 预 处 理 的 最 后 一 步 将 多 视图 结构 收缩 成 一 个 图 结构 。 

2. 比较 标记 成 分 

RTE 的 关键 步骤 之 一 就 是 比较 文本 和 假设 。 给 定 已 整合 的 大 量 不 同 信 息 源 时 ， 我 们 
需要 特殊 的 资源 来 比较 某 些 类 型 的 成 分 。 如 果 将 这 些 资 源 用 统一 的 方法 对 待 ， 就 可 以 简化 
我 们 的 实现 。 因 此 我 们 使 用 抽象 度量 : 

定义 6-3 度量 会 比较 两 个 成 分 ， 比 较 后 返回 一 个 在 [一 1，1]j 上 的 实数 ，1 表示 相 
同 ， 一 1 表示 相反 ，0 表示 不 相关 。 

度量 是 比较 器 概念 的 一 个 具体 化 。 比 较 器 能 比较 两 个 结构 并 且 返 回 任意 信息 。 一 个 度 
量 比较 两 个 成 分 而 只 返回 一 个 分 值 。 比 较 器 更 加 专门 化 ， 是 为 特定 的 结构 而 设计 的 CHE Un 
语义 角色 标注 导出 的 谓词 - 论 元 结构 )。 

注意 这 里 度量 的 定义 限制 了 上 下 文 的 使 用 ， 只 使 用 要 比较 的 成 分 类 型 的 知识 、 生 成 用 
于 创建 成 分 的 解析 资源 中 编码 的 信息 以 及 将 输入 分 析 成 成 分 的 算法 编码 的 信息 。 我 们 把 度 
量 看 作为 相对 简单 的 集中 的 资源 ， 并 且 选 用 抽象 度量 以 允许 我 们 描述 简单 的 接口 ， 因 此 可 
以 简化 图 生成 代码 。 

当 我 们 考虑 将 一 个 新 的 信息 源 添加 到 已 有 的 ， 或许 复 杂 的 RTE 系统 之 中 时 ， 这 种 设 
计 选 择 的 原因 便 非 常 显然 : 理想 情况 下 ， 我们 希望 能 够 避免 重 写 我 们 的 图 生成 和 对 齐 算 
法 。 如 果 我 们 编写 的 能 够 处 理 新 标记 的 新 比较 器 与 原 有 比较 器 的 规范 一 致 ， 我 们 便 无 须 重 
写 这 些 算法 。 另 一 个 局 部 化 的 原因 在 于 可 以 以 方便 的 形式 来 提升 领域 相关 知识 的 封装 性 。 

为 给 出 度量 的 一 个 具体 例子 ， 我 们 描述 词 度量 的 行为 〈 参 见 算法 6-1) 。 给 定 一 对 原形 
为 rise 和 increase 的 词 成 分 ， 我 们 的 度量 应 该 会 返回 一 个 比较 高 的 数值 ， 比 如 0.8， 因 为 
rise 和 increase 在 某 种 上 下 文中 是 同义词 。 给 定 paper 和 exterminate， 它 应 该 返回 一 个 接 
近 0 的 值 ， 因 为 这 两 个 词 没 有 什么 关系 。 如 果 给 出 rise 和 fall， 就 应 该 返回 一 个 接近 一 0. 7 
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的 值 ， 因 为 它们 是 反义词 (我 们 使 负数 的 绝对 值 较 小 ， 这 样 我 们 在 对 齐 阶段 就 更 可 能 选中 
正 数 ， 但 是 这 仅仅 是 出 于 我 们 对 期 望 行为 的 直觉 而 非 经验 )。 

分 值 的 决定 现在 更 多 的 是 一 种 艺术 而 非 科 学 ,我 们 将 它们 用 实数 来 表示 ， 这 样 在 推理 中 
能 够 保持 灵活 性 。 例 如 ， 我 们 发 现 ， 使 用 不 完美 的 实 值 词 相似 度 分 值 的 基准 系统 ， 相 比 于 使 
Ff BE WEFT 2 BC 1.0 和 0. 0 的 相似 度 分 值 的 基准 系统 ， 能 够 在 实验 中 有 更 好 的 结果 。 


算法 6-1 词 度量 的 算法 。 函 数 levenshteinDistance( ) 计算 两 个 词 之 间 的 编辑 距离 。 函 数 isSynonym( ) 查询 
WordNet， 并 且 如 果 两 个 词 是 同义词 就 返回 true, 否则 返回 false, H% isHypernym() 查询 Word- 
Net， 并 且 返 回 将 这 两 个 词 分 隔 开 的 上 位 关系 层 数 (如 果 没 有 相同 的 上 位 就 返回 无 穷 ) 


// 假定 : 词 都 为 小 写 


compare( firstWordC, secondW ordC ) 
score — 0 
firstW ord — getAttribute( firstWordC, WORD ) 
secondW ord — getAttribute( secondWordC, WORD ) 


if ( firstWord == secondW ord ) 
score — 1.0 

else 
lev Distance — levenshteinDistance( firstW ord, secondW ord ) 
numChars — max( firstW ord.length, secondW ord.length ) 


if ( ( numChars — levDistance ) / numChars » 0.9 ) 
score —— 0.8 

else if ( isSynonym( firstW ord, secondW ord ) ) 
score — 0.9 

else if ( isAntonym( firstWord, secondWord ) ) 
score —— 一 0.7 

else 
numH ypernymLinks — isHypernym( firstWord, secondW ord ) ) 
if ( numH ypernymLinks < 4 ) 

score — (0.9/numH ypernymLinks) 
return score 


一 般 情况 下 ， 一 些 度量 分 值 需要 进行 调整 。 例 如 ， 有 些 命名 实体 之 间 的 相似 度 使 用 字 
符 串 编辑 距离 的 变种 ， 它 们 对 于 非常 不 同 的 名 字 倾 向 于 返回 一 个 适中 的 正 值 。 然 而 ， 基 于 
WordNet 的 词 相似 度 度量 ， 当 两 个 词 通过 许多 上 位 步骤 才能 关联 时 ， 会 返回 一 个 相对 低 的 
正 值 。 这 种 情况 与 两 个 词 之 间 具 有 蕴涵 关系 时 的 情况 相近 ， 而 不 同 于 具有 相近 字符 串 编辑 
距离 分 值 时 两 个 实体 的 情况 。 

一 般 地 ， 度 量 并 不 对 称 ， 因 为 蕴涵 关系 不 对 称 。 考 虑 如 下 情况 ， 该 度量 应 用 图 6-1 中 
蕴涵 例子 的 名 词 短 语 进 行 比较 。 必 须 比 较 的 名 词 短 语 对 之 一 是 由 文本 中 的 a company (一 
个 公司 ) 以 及 假设 中 的 an American Company (一 个 美国 公司 ) 组 成 。 在 这 种 情况 下 ， 文 
本 并 不 包含 足够 的 信息 ， 因 此 名 词 短语 度量 的 返回 值 应 该 为 0。 然 而 ， 如 果 an American 
Company (一 个 美国 公司 ) 在 文本 中 ，a company 〈 一 个 公司 ) 是 在 假设 中 ， 那 么 度量 的 
返回 值 应 该 接近 于 1.0， 因 为 前 者 蕴涵 后 者 9 。 

命名 实体 度量 应 该 能 够 识别 John Q. Smith 有 很 大 的 可 能 蕴涵 John Smith 和 Mr. J. 
Smith， 而 非 蕴 涵 Ms. J. Smith。 同 样 ， 这 种 关系 并 不 一 定 对 称 ， 如 John Smith 并 不 一 宋 
28 W John Q. Smith, 


o ”额外 修饰 符 〈 在 这 种 情况 下 是 美国 ) 对 蕴涵 的 作用 称 为 单调 性 ， 关 于 蕴涵 和 单调 性 的 讨论 ， 参 见 MacCartney 
5 Manning [17]. 
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6.3.4 通用 模型 


图 6-6 是 一 个 典型 的 RTE 系统 的 框图 ， 蕴涵 关 系 是 一 次 或 者 批量 进行 处 理 。 为 了 简 
单 起 见 ， 我 们 描述 一 次 处 理 一 对 的 过 程 ， nt ee 我 们 用 系统 
的 评测 来 描述 系统 (这 与 使 用 的 RTE 系统 的 行为 相对 应 ) 。 我 们 单独 处 理 训练 机 器 学 习 组 
件 的 过 程 ， 尽 管 该 过 程 通常 多 次 使 用 相同 的 步骤。 


ae UNA i E 3 
$ 


标注 者 


Ly aH ora Y «HT aH, no 


Y nan. rust 


S 
对 齐 算法 





图 6-6 通用 RTE 框架 的 框图 


1. 预 处 理 

假定 在 RTE REM BA. 我们 要 用 一 套现 成 的 标注 器 9 来 标注 蕴涵 对 的 文本 。 尺 
管 资 源 很 多 ， 但 常用 的 资源 包括 句子 和 词 的 分 割 〈 确 定 句 子 边界 、 词 以 及 标点 符号 词 元 )、 
POS 标记 、 依 存 分 析 或 句法 分 析 、 命 名 实体 识别 、 共 指 消解 以 及 语义 角色 标记 。 这 些 不 同 
的 资源 用 于 富 化 文本 呈 。 

我 们 在 6.3.3 节 中 描述 了 一 种 适 于 融合 多 种 标注 的 数据 结构 。 并 且 ， 在 合适 的 时 候 ， 


我 们 会 说 明 它 是 如 何 对 应 到 某 些 特定 RTE 系统 使 用 的 表示 类 型 上 的 。 


取决 于 使 用 的 现 有 组 件 ， 在 应 用 这 些 资 源 之 前 ， 可 能 需要 清理 输入 ， 而 据 我 们 所 知 ， 


没有 现成 的 解决 方案 。 例 如 ， 一些 旧 包 可 能 无 法 处 理 多 字 节 字符 : UID CE PR D n A 
略 掉 。 清 理 步骤 也 可 以 对 拼写 进行 规范 化 ， 这 对 诸如 句法 分 析 器 或 POS 标记 器 等 有 很 大 
Er] C nr] 


O&O ” 包 或 组 件 可 以 从 一 个 或 多 个 开源 或 学 术 源 代码 中 立即 得 到 。 
© 这 里 RTE 的 术语 有 些 过 载 。 我 们 用 文本 区 间 来 表示 一 般 句 子 、 段 落 及 其 部 分 ， 使 用 文本 表示 荀 涵 对 中 的 与 假 
设 相对 的 那个 较 大 的 部 分 。 
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2. 富 化 

我 们 使 用 术语 富 化 (enrichment)， 以 与 预 处 理 相 区 分 。 富 化 指 的 是 对 已 有 视图 进行 
操作 ， 从 而 扩充 视图 或 者 产生 新 的 视图 。 这 与 分 析 资 源 有 本 质 上 的 不 同 ,分 析 资 源 直接 处 
理 文本 ， 生 成 标注 ， 直 接 分 析 为 成 分 、 关 系 和 视图 。 富 化 资源 有 两 个 功能 : 通过 将 文本 或 
标注 模式 映射 到 结构 的 封闭 集 来 进行 抽象 ， 或 者 通过 识别 输入 文本 或 标记 中 的 隐 式 内 容 并 
将 其 显 式 化 为 新 结构 来 扩充 已 有 标注 。 

抽象 的 例子 是 把 动词 的 修饰 语 ， 如 句子 Attackers failed to enter the building 中 的 
failed to， 以 及 图 6-5 例子 中 的 said that， 表 示 为 动词 的 属性 ， 或 在 相应 的 谓词 - 论 元 结 
构 中 表示 为 关系 节点 。 在 后 者 的 情形 中 ， 我 们 可 以 编写 代码 来 识别 那 种 结构 ， 将 诸如 buy 
这 样 的 内 艇 谓词 用 一 个 表示 不 确定 的 属性 来 标记 。 

规则 应 用 (参见 6. 4. 3 节 ) 是 扩展 的 一 个 例子 ， 将 处 理 文 本 的 隐 式 内 容 显 式 化 或 者 生 
成 文本 的 显 式 复述 。RTE 系统 可 能 用 它们 来 生成 额外 的 表示 处 理 文本 的 复述 的 句法 分 析 
树 ， 或 者 生成 语义 角色 标注 信息 中 的 谓词 - 论 元 结构 。 

3. 图 生成 

在 识别 文本 和 假设 中 的 多 种 句法 和 语义 结构 以 后 ， 必 须 比 较 假 设 中 和 文本 中 的 这 些 结 
构 。 在 最 简单 的 系统 中 ， 只 比较 词 。 在 更 为 成 功 的 系统 中 ， 比 较 的 范围 为 更 广泛 的 标注 类 
型 。 通 常 ， 文 本 与 假设 用 图 来 表示 ， 其 中 节点 对 应 标注 单元 (如 词 、 命 名 实体 、 分 析 树 、 标 
记 了 动词 论 元 的 语义 角色 )， 边 对 应 标记 类 型 间 的 联系 〈 例 如 通过 共 指 边 把 一 个 实体 的 不 同 提 及 
连 起 来 ， 或 用 依存 树 中 的 有 类 型 依存 边 来 联系 词 )。 然 后 ， 根 据 相似 度 度量 (可 能 是 简单 的 相等 
判断 ) 来 将 假设 和 文本 中 的 成 分 连接 起 来 ， 进 而 组 成 一 个 有 别 于 文本 和 假设 结构 的 二 分 图 。 

我 们 假定 在 图 生成 阶段 中 必须 比较 的 成 分 类 型 都 对 应 一 个 比较 器 〈 或 者 度量 ， 如 
6.3.3 节 定 义 的 那样 )。 多 种 成 分 可 以 共享 同一 种 比较 器 ,复杂 成 分 的 比较 右 (有 结构 的 
成 分 ， 如 数字 数量 结构 或 谓语 - 论 元 结构 ) 也 可 以 调用 其 他 更 基本 的 比较 器 。 

4. 对 齐 

对 齐 这 个 步骤 后 面 的 直觉 是 de Marneffe 等 人 [4] 提出 来 的 。 他 们 认为 ， 文 本 中 只 有 
很 少 一 部 分 成 分 是 与 假设 相关 的 。 对 齐 这 个 步骤 就 是 要 确定 这 些 相 关 的 部 分 ， 进 而 简化 下 
— 4S ER > 

很 多 RTE 系统 有 显 式 的 对 齐 步 又; 其 他 系统 把 对 齐 及 推理 集成 为 一 步 。 一 般 来 说 ， 
对 齐 将 假设 中 的 每 个 成 分 映射 到 文本 中 的 一 个 成 分 上 。 该 启发 式 方法 基于 以 下 观察 : 假设 
一 般 比 文本 要 短 ， 在 蕴涵 例子 的 正 例 中 ， 人 类 读者 经 常 使 用 文本 的 一 部 分 来 生成 对 假设 的 
“分 段 ”(piecewise) 解释 。 

大 多 数 RTE 系统 先 把 所 有 成 分 集成 为 单个 图 结构 一 一 也 就 是 我 们 所 说 的 一 个 视 
图 一 一 然后 将 图 上 的 每 个 成 分 进行 对 齐 。 其 他 方法 使 用 词 来 进行 对 齐 ， 并 且 在 推理 步骤 
中 ,分析 对 应 于 对 齐 词 的 其 他 视图 的 结构 。 在 我 们 自己 的 工作 [18] (在 6.4.6 WHR) 
中 ， 我 们 对 不 同 的 视图 组 进行 多 重 对 齐 ， 在 推理 步骤 中 比较 它们 ， 来 分 辨 蕴涵 与 非 蕴 涵 。 

5. 推理 

所 有 RTE 系统 都 必须 有 一 个 决策 组 件 来 标记 出 所 有 的 蕴涵 关系 对 。 它 可 以 是 一 个 相 
对 简单 的 有 阅 值 的 重 伙 的 度量 ,也 可 以 非常 复杂 ， 比 如 从 对 齐 图 中 抽取 特征 ， 然 后 应 用 机 
器 学 习 分 类 器 来 确定 最 终 的 标签 。 有 人 使 用 定理 证 明 系 统 来 处 理 从 列 涵 对 中 导出 的 逻辑 表 
示 和 来 自 预 处 理 步骤 的 分 析 。 我 们 将 于 6.4 节 讨 论 一 些 不 同 的 方法 。 
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6.3.5 实现 


本 节 我 们 讲解 RTE 系统 中 的 不 同 部 分 ， 关 注 于 成 功 RTE 系统 中 共有 的 功能 。 案 例 分 
析 将 在 第 6. 4 节 进 行 讲解 这些 系统 都 来 自 最 近 的 RTE 挑战 赛 ， 并 对 应 到 我 们 的 描述 中 。 
对 于 这 个 通用 框架 ， 我们 使 用 一 个 使 用 基于 WordNet 的 词 成 分 相似 度 度量 以 及 简单 的 基 
于 命名 实体 的 过 滤 规 则 的 简单 词法 蕴涵 算法 (Lexical Entailment Algorithm, LEA) 来 作 
为 我 们 的 运行 实例 。 

我 们 使 用 图 6-7 中 的 蕴涵 对 作为 输入 样 例 ( 略 有 人 造 痕迹 )， 这 个 例子 可 以 展示 在 
LEA 系统 的 上 下 文中 ，RTE 框架 的 每 一 步 。 


文本 : John 说 Joan Smith Hj 5 美元 买 了 3 个 苹果 。 


John said Joan Smith bought three apples for five dollars. 


Rit.: Joan Smith 为 3 个 苹果 支出 了 $5。 


Joan Smith forked out $5 for three apples, -> 





6-7 一 个 文本 蕴涵 对 实现 的 例子 


1. 预 处 理 

我 们 需要 编写 一 个 模块 来 控制 不 同 分 析 资 源 产生 的 数据 流 ， 并 将 每 个 资源 的 输出 翻译 
成 成 分 、 关 系 、 视 图 数据 结构 。 词 级 标注 如 词性 以 及 原形 可 以 整合 到 词 成 分 中 。 将 诸如 命 
名 实体 等 浅 层 标注 分 析 为 它们 上 自己 视图 中 的 成 分 是 很 直接 的 。 结 构 化 标注 ， 如 共 指 或 语义 
角色 谓词 和 论 元 ,需要 为 表示 形式 做 决定 ， 如 是 否 为 谓词 和 论 元 建立 单独 的 视图 ， 或 者 是 
否 创建 一 个 对 应 完整 语义 角色 标注 结构 的 额外 成 分 。 

D 句子 分 割 。 

2) 词 边 界 检测 。 

3) POS 标记 。 

4) 依存 或 句法 分 析 。 

5) 命名 实体 识别 。 

6) 共 指 消解 〈 和 确定 代词 和 其 他 实体 提 及 的 指 回 )。 

7) 语义 角色 标注 (动词 与 名 词性 动词 )。 

这 个 顺序 反映 了 一 般 的 依赖 性 : 比如 ， 很 多 NLP 应 用 需要 POS 标记 作为 信息 源 ; 大 
多 数 语义 角色 标注 需要 依存 或 句法 分 析 信 息 。 有 些 工具 允许 甚至 要 求 用 户 提 供 这 种 输入 ， 
而 另外 一 些 工 具 在 内 部 完成 所 有 的 工作 。 自 己 提 供 这 些 数 据 可 以 避免 重复 应 用 具有 相似 功 
能 的 工具 ， 进 而 提升 效率 。 为 方便 起 见 ， 诸 如 词性 和 原形 等 词 级 标注 可 以 加 到 词 成 分 中 。 

注意 ， 如 果 你 使 用 不 同 源 的 工具 ， 那 么 它们 可 能 对 输入 有 不 同 的 要 求 。 例 如 ， 许 多 应 
用 使 用 未 分 割 的 文本 作为 输入 ， 在 内 部 进行 分 割 。 这 里 的 问题 是 ， 没 有 明确 “正确 ”分 割 
的 指南 ， 因 此 不 同 源 的 输出 在 句子 和 词 边界 上 可 能 会 不 一 致 。 例 如 ， 用 连 字 符 连 接 的 单词 
应 该 分 开 吗 (a, American-led 还 是 American-led)? 表示 货币 的 符号 应 该 和 数字 在 一 起 
四 (如 ，$12M 还 是 $12M)? 在 这 种 情况 下 你 必须 亲自 解决 这 些 差 异 。 当 然 ， 你 可 以 使 
用 一 个 完整 的 工具 集合 来 提供 所 有 你 需要 的 不 同 标注 ， 或 者 使 用 接受 已 分 割 输入 的 工具 。 但 
每 个 任务 中 最 好 表现 的 工具 都 来 自 同一 出 处 的 这 种 情况 是 很 少见 的 。 如 果 一 个 特定 的 工具 按 
照 特 定 的 分 割 标 准 进行 开发 ， 那 么 当 给 定 男 一 个 分 割 标 准 的 输入 时 ， 它 的 表现 或 许 不 好 。 
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2. 运行 实例 : ii] E MAE 

对 于 我 们 的 LEA RTE 系统 ,我 们 需要 两 个 视图 : Word 视图 和 NEMA. Word 视图 
将 包含 蕴涵 对 成 员 〈( 即 文本 或 假设 ) 所 对 应 的 每 个 词 元 的 词 成 分 ， 它 将 包括 原始 词 和 词 的 
原形 〈 如 果 有 的 话 ) NE 视图 将 包含 蕴涵 对 成 员 中 每 个 命名 实体 的 成 分 ， 包 括 实体 的 原始 
表示 (原始 文本 的 词 元 序列 ) 以 及 实体 类 型 。 我 们 一 开始 并 不 使 用 所 有 信息 ， 但 是 它 使 我 
们 扩展 原始 算法 成 为 可 能 。 得 到 的 多 视图 数据 结构 与 图 6-5 中 所 示 相 同 ， 除 了 没有 SRL 与 
NUM 视图 。 | 

有 的 NLP 应 用 提供 编程 接口 ， 有 的 则 没有 。 但 是 几乎 所 有 应 用 都 生成 有 标记 文本 的 
输出 。 对 于 那些 不 熟悉 解析 NLP 工具 输出 任务 的 读者 ， 我 们 在 算法 6-2 描述 了 一 个 解析 
命名 实体 识别 (Name Entity Recognition，NER) 输出 的 算法 。 算 法 6-2 也 展示 了 一 个 
NER 输出 的 样 例 。 我 们 假定 NER 使 用 与 生成 Word 视图 一 样 的 方法 来 切 分 输入 文本 ， 或 
者 NER 使 用 分 词 的 文本 作为 输入 。 我 们 同样 假定 在 NER 的 输出 中 没有 重 全 的 命名 实体 ， 
那么 在 我 们 使 用 的 NER 标记 器 上 该 假设 为 真 ， 尽 管 将 算法 进行 扩展 ， 使 其 能 处 理 产 生 重 
到 的 命名 实体 工具 的 输出 ， 这 并 不 是 很 难 的 事情 。 

3. Bt 

为 了 扩充 我 们 的 LEA 系统 ,我 们 富 化 处 理 的 文本 ， 添 加 与 习 语 用 法 一 致 的 简单 表达 。 
这 个 简单 的 资源 用 的 是 一 个 从 习 语 短语 到 等 价 表 达 的 人 工 书写 的 映射 ， 比 如 kick the buck- 
et 映射 到 die 。 假 设 只 考虑 能 够 映射 到 相同 或 更 少数 目的 词 的 表达 ， 我 们 也 可 以 简单 添加 
另 一 个 词 成 分 ， 该 成 分 对 应 原始 习 语 表达 中 相同 的 索引 (一 个 替换 词 成 分 能 够 覆盖 原始 名 
子 中 的 多 个 索引 ) 。 算 法 6-3 描述 了 一 个 简单 习 语 映射 算法 。 
算法 6-2 这 个 算法 解析 了 NER 式 的 标注 。 函 数 getnextword(nerOutput) 分 割 出 nerOutput 的 第 一 个 单词 


并 返回 之 。 函 数 peekNextChar(aWord) 返回 aWord 的 第 一 个 字母 。 函 数 concatenate( start- String, 
nextWord) 把 nextWord 附加 到 startString 后 ， 以 一 个 空格 隔 开 


// nerOutput #4: “[PER Joan Smith | bought apples.” 
// 假定 : 没有 重合 的 实体 ， 输 入 中 的 中 括号 已 经 替换 
CreateViewFromNerOutput( String nerOutput ) 


neView + 0 
neT'ype — null 
neValue — null 
indexSet — Ø 
isInNe — false 


while ( nextW ord — getNextWord( nerOutput ) ) 


firstChar 二 peekNextChar( nextWord ) 
if ( firstChar == T ) 
isInNe — true 
getFirstChar( neztW ord ) 
neT ype —— nextW ord 
else if ( firstChar == ‘|’ ) 
neConstituent — { neType, neV alue, indexSet} 
neView —— neView U neConstituent 
indezSet — Ø 
neT ype — null 
neValue — null 
isInNe — false 
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else if ( isInNe ) 

wordIndez — wordIndex + 1 

indexSet — indexSet U index 

neValue — concatenate( neValue, nextWord ) 
else 

continue 


return neV iew 


算法 6-3 生成 习 语 视图 的 简单 算法 


// 假定 : annotationGraph 已 具备 词 视图 
// idionList 是 从 习 语 串 到 单个 词 的 映射 
// 例如 forked out 一 pay © 


AddIdiomView( annotationGraph ) 
mazWordsInIdiom — 3 
indices — getOrderedWordIndices( annotationGraph ) 
foreach index ( indices ) 
indezSet — Ø 
offset — 0 
S equence die an 
replacement — null 


do 
offsetIndez — index + offset 
word «— findWordWithIndex( annotationGraph, offectindes ) 


sequence — concatenate( sequence, word ) 
replacement + findIdiomMatch( sequence ) 
indezSet — indezSetU offsetIndez 
offset —— offset +1 
while ( ( replacement != null ) AND ( offset < mazWordsInIdiom ) ); 


if ( replacement !— null ) 
idiomConstituent —generateldiomConstituent( replacement, indezSet ) 
idiomV iew — idiomV iew U idiomConstituent 


if ( idiomV iew !— Ø) 
addView( annotationGraph, idiomV iew ) 


return 


富 化 后 的 多 视图 数据 结构 如 图 6-8 中 所 示 ， 原 始 假设 是 “Mrzr. Smith forked out $5 
for three oranges”。 在 多 视图 表示 中 ， 每 一 个 词 元 ， 包 括 标点 符号 ， 都 有 一 个 词 成 分 。 

习 语 映射 模块 〈IcliomMapper) 加 入 了 一 个 新 的 词 成 分 pay, EMIX T LATTE us S Jn 
文中 的 forked out 所 对 应 的 两 个 索引 ， 这 点 在 确定 最 优 对 齐 时 很 重要 (参见 6. 3. 6 7). 

4. 图 生成 

在 图 生成 阶段 ， 比 较 资源 (度量 ) 应 用 到 从 文本 和 假设 中 抽取 的 相关 成 分 对 。 这 可 以 
用 一 种 很 直接 的 方法 实现 : 遍历 假设 和 文本 的 视图 ， 然 后 遍历 每 个 视图 中 的 成 分 ， 最 后 应 
用 合适 的 度量 。 

但 是 度量 的 代码 本 身 可 能 很 复杂 ， 如 对 依存 分 析 ( 子 ) 树 等 高 度 结 构 化 成 分 的 度量 。 
我 们 在 算法 6-4 中 提供 了 一 个 简单 的 图 生成 算法 。 
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图 6-8 对 于 样 例 蕴涵 对 ， LEA 得 到 的 最 优 对 齐 。 pis cule EE DER 


运行 实例 

在 我 们 的 例子 中 ， 文 本 中 有 命名 实体 John 和 Joan Smith, RFA Joan. John 和 
Joan 有 很 小 的 编辑 距离 (为 1) ， 但 是 人 类 读者 会 明白 ， 除 非 是 排 字 错 误 ， 否 则 这 两 个 名 
字 指 的 是 不 同 的 人 。 我 们 假定 我 们 的 命名 实体 度量 足够 聪明 ， TE ae al 则 会 返 
回 一 0.7 的 相似 度 分 值 。 

我 们 另外 的 文本 -假设 命名 实体 对 ， 即 字符 串 Joan Smith 与 Joan， 应 该 返回 一 个 高 的 
分 值 ， 尽 管 它们 的 编辑 距离 很 大 (为 6) 。 假 定 我 们 的 NER 度量 能 够 返回 0. 9 Mate. A 
为 尽管 这 两 个 字符 串 不 相同 ,但 是 它们 很 可 能 指 的 是 同一 个 体 。 

假定 我 们 的 词 相似 度 度 量 使 用 WordNet， 并 且 应 用 如 下 启发 式 方法 : 如 果 词 与 同义词 
或 上 一 级 的 上 位 词 连接 ， 那么 分 值 为 0.9。 如 果 词 通过 两 级 上 位 进行 连接 ， 那么 分 值 为 
0. 6， 三 级 上 位 的 话 分 值 为 0. 3。 如 果 词 与 反义词 相连 ， 那 么 分 值 为 一 0.5。 这 些 行为 在 算 
法 6-1 所 述 算 法 中 都 有 摘 述 。 


算法 6-4 图 生成 阶段 的 算法 (比较 蕴涵 对 成 员 图 )。 这 里 假定 系统 存储 一 个 从 配对 成 分 类 型 到 兼容 比较 
器 的 映射 ， 并 且 比 较 器 与 度量 类 似 ， 会 返回 一 个 分 值 


CompareHypothesisToText( hypGraph, tertGraph ) 
edgeList —— © 
foreach view hypV in hypGraph 
viewEdgeList —— 0 
foreach view teztV in tertGraph 
if ( isCompatible( hypV, teztV ) ) 
viewPairEdgeList — CompareViews( hypV, teztV ) 
viewEdgeList — viewEdgeList U view Pair EdgeList 
edgeList — edgeList U viewEdgeList 
return edgeList 





CompareViews( hypV iew, teztV iew ) 
edgeList — © 
foreach constituent hypC in hypV iew 
hypEdgeList 二 中 
hypId — getIdentifier( hypC ) 
foreach constituent tertC in teztV iew 
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textId — getIdentifier( teztC ) 
score — CompareConstituents( hypC, textC ) 
matchEdge 一 { ViewT ype, hypld, textId, score } 
hypEdgelist — hypEdgeList U matchEdge 
edgeList — edgeList U hypEdgeList 
return edgeList 


CompareConstituents( hypC, textC ) 

hypT ype — getType( hypC ) 
teztT'ype — getType( textC ) 
comparator Set +— getCompatibleComparator( hypT ype, textT ype ) 
matchScore + 0 
foreach ( comparator € comparator Set ) 

score — comparator 一 compare( hypC, textC ) 

if ( score » matchScore ) 

matchScore — score 

return matchScore 


6.3.6 WF 


大 多 数 对 齐 算法 背后 的 思想 是 ， 有 的 对 齐 比 其 他 对 齐 要 好 ， 而 直接 为 每 个 假设 成 分 选 
择 最 相近 的 文本 成 分 太 过 简化 ， 因 为 这 没有 考虑 句子 结构 。 

给 定 蕴 涵 图 生成 算法 以 及 比较 右 (度量 ) 的 表达 ， 我 们 可 以 将 选择 最 优 对 齐 问题 视 为 一 
个 优化 问题 。 我 们 将 视图 组 一 起 对 齐 : 例如 ， 我 们 可 以 在 一 个 对 齐 中 结合 NE 与 NUM 视图 。 
我 们 可 以 同时 将 所 有 视图 一 起 对 齐 ， 或 者 单独 对 齐 ， 取 决 于 我 们 想 要 运行 的 推理 类 型 。 

我 们 通过 限制 对 齐 来 允许 假设 中 的 每 个 索引 映射 到 文本 中 的 至 多 一 个 目标 ， 因 此 和 覆盖 
多 于 一 个 词 元 的 成 分 不 会 有 重 登 。 这 里 的 目标 是 识别 解释 假设 词 元 的 文本 片段 ， 进 而 简化 
推理 问题 。 

总 的 来 说 ， 我 们 的 直观 想法 是 一 些 视 图 需要 竞争 : 当 同 一 词 元 有 多 种 可 选 表示 时 ， 如 习 
语 的 替代 ， 我 们 希望 互 斥 地 进行 选择 ， 在 这 种 情况 下 视图 应 该 在 对 齐 前 组 成 组 ;我们 和 硕 望 其 
他 视图 能 够 单独 处 理 ， 因 为 它们 可 能 会 提供 有 用 的 信息 ， 如 果 组 成 组 以 后 ， 这 些 信息 可 能 会 
丢失 。 例 如 ， 假 设 命名 实体 度量 只 返回 区 间 [0, 1] 内 的 值 ， 并 且 没 有 实体 成 分 匹配 。 如 果 
我 们 将 NE 与 Word 视图 合并 ， 则 会 得 到 错误 的 部 分 实体 匹配 ， 比 如 共享 称呼 、 姓 或 者 碰巧 
出 现在 其 他 蕴涵 对 成 员 中 的 名 与 姓 中 的 常规 名 词 。 当 我 们 使 用 有 不 兼容 输出 〈 即 它们 的 分 值 
不 能 用 同样 的 方法 进行 解释 ) 的 度量 合并 视图 时 ， 也 会 遇 到 相似 的 问题 。 另 外 ， 合 并 命名 实 
体 与 词 可 能 会 产生 问题 ， 因 为 对 于 正 向 匹配 ， 词 相似 度 度量 一 直 返回 较 低 的 分 值 。 

在 最 优 解 中 ， 不 同 粒度 的 成 分 可 能 均 有 对 齐 边 ， 条 件 是 它们 没有 重合 。 

由 于 度量 可 能 会 返回 负 值 ， 所 以 目标 函数 必须 考虑 这 些 。 负 值 代 表 矛 盾 : 如 采 没 有 更 
好 的 正 向 匹配 ， 该 信息 会 与 随后 的 蕴涵 决策 高 度 相关 。 所 以 在 目标 函数 中 ， 要 使 用 边 权 重 
的 绝对 值 (magnitude) 。 边 仍然 保留 表示 负 癌 的 标签 ， 在 推理 阶段 使 用 。 

对 于 浅 层 成 分 的 对 齐 ， 我 们 需要 在 深层 结构 上 进行 猜测 。 因 为 我 们 在 目标 函数 中 添加 
局 部 性 ， 对 假设 中 相 邻 成 分 连 到 文本 中 分 离 成 分 的 对 齐 进 行 惩 罚 。 我 们 忽略 相交 的 边 ， 因 
为 我 们 不 认为 这 是 判断 蕴涵 的 可 靠 信 息 。 

所 以 目标 晴 数 为 : 

>) eXGBI S Tj) Fas >) AGI, Tj) ,el Hy > Th)) 


m 


(6. 1) 


约束 为 : 
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2U[ecH; Try Ten (6. 2) 


其 中 m 是 假设 中 词 元 的 个 数 ，e( 昌 ;,，T;) 是 比较 假设 词 元 i 与 文本 词 元 ; 的 度量 分 值 的 绝 
对 值 ，a 是 距离 惩罚 的 权重 参数 ，A(e( 昌 ;，T; )、e( 晶 ;4+1，Tk)) 计算 对 齐 到 假设 词 元 i 的 
文本 成 分 及 对 齐 到 假设 词 元 i 十 1 的 文本 成 分 间 的 距离 。 对 于 覆盖 多 个 词 元 的 成 分 ， 该 值 
是 所 有 Tj; 中 覆盖 词 元 与 所 有 Ti 中 覆盖 词 元 的 距离 的 最 小 值 。 这 个 距离 函数 可 以 通过 多 种 
方式 来 计算 : 例如 ， 在 词 元 或 者 依存 分 析 树 的 路 径 中 ，I[e(H;, T] 是 指示 假设 词 元 i 
映射 到 文本 词 元 7 的 指示 函数 。 

对 于 融合 不 同 粒度 的 对 齐 ， 前 述 表 达 使 用 覆盖 当前 词 元 对 的 映射 成 分 的 边 的 分 值 的 绝 
对 值 作为 一 个 词 元 级 边 权 重 。 例 如 ， 对 假设 中 覆盖 的 每 个 词 元 ， 两 个 命名 实体 间 分 值 为 
1.0 的 边 会 计数 为 1.0， 和 覆盖 两 个 索引 的 命名 实体 会 生成 分 值 为 2.0 的 边 。 这 避免 了 惩罚 
高 于 一 个 成 分 匹配 的 情况 。 

在 我 们 的 RTE 系统 [18] 中 ,我 们 没有 对 齐 训练 数据 ， 因 此 我 们 人 工 选 择 对 齐 参 数 a 
(一 个 接近 于 0 的 正 数 ， 足 够 打破 平衡 )， 并 且 使 用 穷 举 搜索 来 找到 最 优 对 齐 。 搜 索 时 间 有 
上 限 ， 超 过 之 后 使 用 一 个 贪心 的 从 左 往 在 对 齐 来 代替 最 优 解 。 我 们 使 用 词 元 的 个 数 作 为 距 
离 度量 A. 

算法 6-5 显示 了 我 们 使 用 的 搜索 算法 。EdgeSetList 按照 如 下 添加 : 对 于 假设 文本 区 
间 内 的 每 个 索引 ， 所 有 以 该 索引 为 起 始 的 成 分 的 边 都 收集 到 一 个 集合 中 ， 然 后 添加 到 
EdgeSetList 中 。 所 有 可 能 的 对 齐 都 要 考虑 并 计算 分 值 ， 返 回 最 高 的 对 齐 分 值 。 

函数 getNextAlignment 用 来 遍历 所 有 可 能 的 边 的 集合 ， 这 些 边 满足 “每 个 假设 词 元 
一 条 边 ” 的 约束 。 为 了 实现 这 一 点 ， 需 要 使 用 CounterSet: 这 个 对 象 存储 覆盖 假设 的 每 个 
索引 的 成 分 的 总 边 数 ， 以 及 指示 在 EdgeSetList 中 对 应 的 索引 的 哪 条 边 用 于 之 前 的 对 齐 的 
索引 。 为 了 生成 下 一 个 对 齐 ， 它 增加 不 在 对 于 相应 假设 索引 的 边 集 合 中 的 最 后 一 条 边 上 的 
Ht EdgeSet 索引 。 如 果 一 个 计数 器 到 达 了 最 大 的 索引 ， 它 将 重 设 为 第 一 个 索引 ， 然 后 处 
理 下 一 个 计数 器 。 如 果 所 有 的 计数 器 都 处 于 最 大 索引 ， 那 么 所 有 的 对 齐 已 被 考虑 。 

为 了 生成 对 应 当前 CounterSet 值 的 对 齐 ， 要 遍历 EdgeSetList。 从 以 最 小 索引 起 始 的 
成 分 的 边 集 合 开始 ， 选 择 对 应 到 相应 索引 的 计数 器 的 边 。 边 假设 成 分 的 最 后 索引 一 个 一 旦 
找到 ， 会 跳 过 中 间 索 引 。 接 下 来 处 理 下 一 个 没有 被 假设 成 分 覆盖 的 索引 ， 直 到 所 有 的 假设 
索引 都 遍历 过 为 止 。 

(按照 目前 所 写 ， 当 CounterSet 增加 时 ， 算 法 可 能 会 生成 重复 对 齐 。 但 是 增加 的 计数 器 
是 在 成 分 覆盖 的 区 间 内 ， 这 里 成 分 对 应 到 一 个 通过 较 小 假设 索引 计数 器 所 选择 的 边 上 。 为 了 
节省 空间 和 保持 简洁 ， 这 里 省 略 掉 重 复 检测 。 然 而 ， 这 里 的 算法 是 正确 的 ， 只 是 不 够 高 效 。) 


算法 6-5 ”对 于 视图 集合 ， 寻 找 最 优 的 对 齐 算 法 。 函 数 getindices() 为 图 返回 一 个 有 序 的 词 索 引 列 表 


findBestAlignment( edgeSet, hypGraph, textGraph ) 

bestScore — 0.0 

edgeSet List — Ø 

foreach index ( getIndices( hypGraph ) ) 
current EdgeSet — findEdgesWithStartIndex( hypGraph, index ) 
edgeSet List — edgeSetList U current EdgeSet 

counterSet + getCounterSet( edgeSet List ) 

best Alignment — @ 

do 
current Alignment — getNextAlignment( edgeSetList, hypGraph, textGraph, 
counterSet ) 
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score +— scoreAlignment( currentAlignment ) 
if ( score » bestScore ) 
best Alignment — current Alignment 
bestScore — score 


while ( currentAlignment !— Q ); 
return best Alignment 


getNextAlignment( edgeSetList, hypGraph, tertGraph, edgeSetCounters ) 
current Alignment — () 
if ( incrementCounters( edgeSetCounters ) ) 
position — 0 
maz Position — sizeOf( edgeSetCounters ) 
nextUncoveredIndex — 0 
while ( position < maz Position ) 
position — position + 1 
if ( nertUncoveredIndez <= position ) 
current EdgeSet — edgeSetList| position | 
current PositionCounter — edgeSetCounters| position | 
current Edge + currentEdgeSet| current PositionCounter | 
current Alignment — current Aligment U current Edge 
hypConstituentId — getHypConstituentId( currentEdge ) 
hypConstituent — findConstituent( hypGraph, hypConstituentId ) 
lastIndex — getLastIndex( hypConstituent ) 
nextU ncoveredIndex — lastIndez + 1 
return current Alignment 


incrementCounters( edgeSetCounters, edgeSet List ) 
index — 0 
while ( index < sizeOf( edgeSetList ) ) 
counter — edgeSetCounters| index | 
edgeSet — edgeSetList| index | 


mazCount — sizeOf( edgeSet ) 
if ( counter < mazCount ) 
counter — counter 4- 1 
return true 
counter — 0 
index — index + 1 
return false 


运行 实例 

在 我 们 的 LEA 系统 的 对 齐 步 又 中 ， 我 们 结合 单词 和 习 语 视图 ， 并 单独 对 NE W E H 
行 对 齐 。 其 基本 原理 是 ， 我 们 可 以 对 习 语 成 分 和 词 成 分 使 用 相同 的 词 度量 ， 并 且 我 们 认为 
习 语 替换 相当 于 生成 一 个 新 句子 ， 其 中 替换 项 与 原始 项 竞争 。 部 分 匹配 的 习 语 没有 意义 。 
图 6-8 描述 了 LEA 系统 生成 的 对 齐 。 

式 (6.1) 是 LEA 实现 的 距离 函数 ， 简 单 起 见 ， 它 总 是 返回 0。 尽 管 当 文本 非常 长 时 ， 
但 为 倾向 于 聚 类 边 的 距离 添加 惩罚 是 可 能 的 ， 而 且 对 于 假设 中 的 某 些 词 ， 在 文本 中 可 能 会 
有 多 个 匹配 的 词 。 

这 个 简单 的 LEA 系统 使 用 一 个 贪心 的 对 齐 方法 ， 选 择 每 个 单独 假设 词 匹配 的 最 大 值 。 
在 成 语 和 词 视 图 对 齐 中 ， 习 语 替 换 计 数 两 次 ， 因 为 它 覆 盖 了 两 个 词 索 引 。 虚 词 如 冠 词 Ca. 
the 等 ) 和 介词 Con, of 等 ) 通常 携带 比 名 词 ， 动 词 和 形容 词 更 少 的 语义 内 容 ， 因 此 LEA 
使 用 包含 这 样 的 项 的 停 用 词 表 并 忽略 边 的 分 值 。 

最 优 对 齐 的 总 对 齐 分 数 (图 6-8 中 有 显示 ) 为 0. 43, 

NE 视图 也 进行 对 齐 。 假 设 视 图 中 只 有 一 个 NE 成 分 ， 并 通过 最 高 分 值 边 进行 对 齐 。 
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6.3.7 TRU 


RTE 系统 的 推理 组 件 最 后 决定 每 个 蕴涵 对 的 标签 (以 及 分 值 )。 尽 管 在 这 里 我 们 将 它 
与 对 齐 步骤 区 分 ， 在 某 些 方法 中 ， 二 者 是 紧密 联系 的 。 

在 一 些 系 统 中 ， 推 理 仅仅 是 简单 地 将 对 齐 分 值 与 阅 值 相 比 。 在 这 种 二 元 RTE 任务 中 ， 
如 果 分 值 高 于 阅 值 ， 那 么 蕴涵 对 就 标记 为 蕴涵 ， 否 则 标记 为 非 蕴 涵 。 在 三 元 任务 中 ， 有 些 
系统 进行 两 个 连续 的 分 类 : 一 个 用 来 区 分 未 知 的 例子 和 其 他 ， 第 二 次 分 类 将 其 他 分 为 蕴涵 
与 矛盾 (参见 Wang, Zhang 和 Neumann L19j)。 其 他 系统 对 一 个 对 齐 分 值 使 用 两 个 效 
值 : (KB BI (EL AR EX Ar RAF JE (参见 Iftene 和 Moruz [20]) 。 

其 他 系统 在 对 齐 步骤 后 进行 特征 提取 (比如 Chambers ÆA [12 5. 例如， 这 些 特 征 
能 够 刻画 连接 假设 中 每 对 词 的 依存 分 析 连 接 与 对 齐 到 文本 词 的 相应 连接 之 间 的 对 应 关系 。 
随后 这 些 特征 可 以 作为 机 器 学 习 分 类 器 的 输入 ， 分 类 器 可 以 使 用 它们 来 预测 蕴涵 对 的 
标签 。 

一 些 系统 会 根据 全 局 特征 来 改变 对 齐 分 值 。 这 些 特征 可 能 是 过 滤 规 则 : 例如 ， 如 果 假 
设 中 有 命名 实体 ， 但 在 文本 中 没有 找到 匹配 ， 那 么 这 个 例子 很 可 能 是 非 列 涵 。 另 外 一 些 特 
征 的 例子 是 否定 特征 : 一 般 地 ， 和 否定 和 其 他 项 或 结构 影响 极 性 ， 比 如 “failed to”, EM 
预 处 理 或 富 化 阶段 被 识别 ， 并 且 在 图 结构 中 编码 。 然 后 它们 用 于 影响 最 终 决 策 ， 当 文本 中 
有 和 否定 词 而 假设 中 没有 时 ， 或 许 会 将 蕴涵 标记 为 矛盾 。 相 反 的 情况 也 成 立 ， 这 时 有 其 他 的 
因素 表明 文本 蕴涵 假设 。 为 了 人 允许 度量 返回 负 值 ， 通 过 边 标 签 跟踪 并 且 使 用 边 分 值 的 绝对 
值 决定 对 齐 ， 这 种 特征 已 符合 我 们 提出 的 框架 : 在 富 化 步骤 做 抽象 ， 解 释 相 关 相 似 性 度量 
的 富 化 表示 〈 人 允许 它 返回 负 分 值 )， 然 后 确定 负 边 是 否 在 最 终 对 齐 中 存在 ， 也 是 可 能 的 。 

运行 实例 

命名 实体 的 对 齐 用 作 一 个 过 滤器 : 如 果 在 假设 中 有 一 个 命名 实体 没有 匹配 文本 中 的 任 
何 对 象 ， 则 LEA 自动 判断 为 非 蕴涵 。 我 们 也 可 以 通过 限定 单独 边 的 分 值 以 及 将 预测 标签 
设置 为 非 蕴涵 来 达到 这 种 效果 ， 如 果 任 何 单独 的 假设 NE 成 分 分 值 都 比 靖 值 低 。 

如 果 假 设 中 命名 实体 全 部 匹配 ， 则 会 咨询 词 与 习 语 对 齐 。 

由 于 假设 包含 一 个 命名 实体 并 且 和 文本 中 的 实体 有 正 值 的 对 齐 ， 所 以 LEA 不 会 将 标 
签 设 置 为 非 列 涵 ， 并 且 会 咨询 词 与 习 语 对 齐 。 

对 于 词 和 习 语 对 齐 ，LEA 使 用 一 个 简单 的 赣 值 ， 它 只 在 二 元 任务 中 使 用 。 假 设 词 国 
值 为 0. 67，LEA 会 根据 词 和 习 语 对 齐 将 该 例子 的 标签 预测 为 非 蕴 涵 。 

注意 LEA 在 这 个 例子 上 出 现 了 错误 ， 要 做 得 更 好 ， 它 需要 有 识别 “$5” 和 “five 
bucks” 是 相同 的 能 力 ， 这 种 能 力 由 数量 分 析 以 及 对 应 的 相似 度 度量 来 提供 。 这 种 资源 同 
样 会 识别 some fruit 与 four apples 之 间 的 映射 ， 尤 其 当 充 分 利用 词 相似 度 度量 时 。 

如 果 在 文本 和 假设 中 有 上 反 义 项 ， 比 如 love 和 hate， 则 我 们 的 词 度量 会 返回 一 个 负 分 
值 。 如 果 在 文本 中 没有 对 hate 有 更 好 的 匹配 ( 非 反 义 词 )， 对 齐 工 具 则 会 选择 反 义 匹 配 
边 ， 因 为 它 忽略 边 分 值 的 负 号 。 在 推理 步骤 中 ， 负 值 会 保留 并 且 会 自动 惩罚 分 值 。 我 们 可 
以 通过 改变 分 值 函 数 ， 使 用 规则 (如 “如 果 文 本 和 假设 中 两 个 对 齐 的 动词 是 反义词 ， 则 预 
WAFFE) 或 者 以 乘法 来 累积 分 值 (一 个 负 值 边 会 导致 全 局 为 负 值 ) 来 加 强 推理 算法 。 
这 些 启 发 式 方法 有 时 很 有 效 ， 但 是 一 般 会 带 来 新 的 错误 源 。 尽 管 如 此 ， 考 虑 到 这 种 效果 ， 
一 些 成 功 的 RTE 系统 用 它 来 提高 性 能 。 
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6.3.8 训练 


在 那些 最 成 功 的 系统 中 ， 对 齐 或 推理 组 件 必须 通过 使 用 开发 数据 集 来 进行 调节 ， 以 适 
应 蕴涵 语料库 。 在 使 用 机 絮 学 习 组 件 的 系统 中 ， 该 过 程 就 称 作 训 练 (training): 机 器 学 习 
算法 处 理 开发 语料库 中 的 蕴涵 例子 ,计算 相关 的 统计 量 , 根据 接收 的 输入 特性 来 生成 问题 
的 模型 。 输 入 特性 通常 称 为 特征 (feature): 表达 式 和 函数 接收 输入 中 的 特定 部 分 ,并且 
为 每 个 例子 计算 一 个 值 。 

在 基于 非 机 融 学 习 的 组 件 中 ， 也 可 能 会 有 一 个 使 用 开发 集 调 节 相 似 度 函数 的 过 程 ， 一 
般 是 在 参数 空间 中 使 用 尝试 或 穷 举 方法 进行 搜索 。 

我 们 在 6. 4 节 描 述 一 些 系统 的 训练 过 程 。 

运行 实例 

对 于 LEA 系统 ， 我 们 需要 计算 在 推理 步骤 用 于 决定 蕴涵 标签 的 阔 值 。 我 们 通过 计算 
每 个 例子 在 开发 语料库 中 的 最 好 对 齐 分 数 ， 依 据 对 齐 分 数 对 例子 进行 排序 ， 并 且 将 每 个 分 
数 当 作 一 个 可 能 的 国 值 来 测试 。 最 后 选取 那个 能 将 最 多 例子 正确 分 类 的 阔 值 。 

你 也 许 在 公式 6. 1 中 已 经 观察 到 了 ， 我 们 用 假设 中 词 元 的 数目 来 归 一 化 对 齐 边 分 值 之 
和 。 我 们 这 样 做 后 ， 在 推理 (以 及 训练 ) 的 步骤 中 ， 决 策 对 于 假设 的 长 度 是 无 偏 的 。 例 如 ， 
考虑 两 个 不 同 的 例子 ， 一 个 的 假设 长 度 是 4 而 另 一 个 的 长 度 是 12。 如 果 每 个 例子 中 有 4 个 相 
似 的 部 分 ， 我们 直觉 上 选择 不 同 的 蕴涵 标签 ， 因 为 前 者 比 后 者 更 可 能 被 标记 为 蕴涵 。 


6.4 案例 分 析 


在 这 个 章节 中 我 们 综述 了 一 些 最 新 系统 ， 将 它们 作为 案例 学 习 。 在 每 个 案例 中 ， 我 们 
描述 方法 的 主要 特征 、 方 法 使 用 的 预 处 理 模 块 以 及 用 来 预测 蕴涵 决策 的 方法 (在 相关 的 地 
方 )。 许 多 开源 的 资源 被 多 个 系统 使 用 ; 我 们 不 对 每 个 这 种 资源 进行 重复 引用 ， 只 列 出 名 
字 ， 并 且 将 所 有 信息 放 到 本 章 的 最 后 ( 详 见 6.6 节 )。 我 们 的 目标 是 在 这 里 描述 RTE 中 有 
趣 的 研究 并 且 将 不 同 的 方法 关联 到 我 们 的 框架 中 。 对 于 具体 的 实现 细节 ， 请 参考 原始 
文献 。 

要 注意 的 是 ， 只 要 可 能 ， 我 们 包含 在 RTE 5 数据 集 上 评测 的 系统 。 然 而 ， 一 些 有 趣 
的 系统 只 在 早期 的 RTE 数据 集 上 评测 ， 因 此 它们 精确 度 的 结果 不 具有 直接 可 比 性 。 


6.4.1 抽取 语 篇 约束 


Hickl 和 Bensley 提出 了 一 个 识别 文本 蕴涵 的 框架 ， 该 框架 基于 提取 隐 式 信念 或 语 篇 约束 。 
假设 如 下 : 文本 包含 了 许多 简单 的 构造 ， 即 使 不 蕴涵 某 些 特殊 的 文本 -假设 对 ， 它 们 也 是 对 的 。 
图 6-9 描述 了 一 个 蕴涵 对 以 及 所 有 的 语 篇 约束 实例 ; 图 6-10 是 描述 这 个 系统 的 框图 。 

预 处 理 的 步骤 包括 句法 分 析 和 语义 依存 分 析 、 命 名 实体 识别 、 共 指 消解 和 数 词 识 别 。 
这 些 系统 的 输出 可 以 用 一 个 图 表示 来 统一 。 

在 富 化 步骤 中 ， 文 本 和 假设 会 被 分 解 成 简单 的 句子 集 ， 这 些 句 子 本 身 是 真 的 ， 与 蕴涵 
对 的 真 值 无 关 。 一 个 关系 抽取 器 被 用 来 辨别 已 知 关 系 ， 如 “拥有 ”、“ 位 置 接近 ”、“ 雇 们 
于 ”等 ， 以 及 识别 补充 表述 ， 例 如 括号 、as 从 名 和 同位 语 。 

在 对 齐 步骤 中 ， 应 用 一 个 基于 词 元 的 对 齐 工 具 ， 这 个 对 齐 工 具 使 用 多 种 相似 度 度量 ， 
例如 基于 WordNet 的 词 相 似 度 、Levenshtein 字符 串 编 辑 距 离 和 命名 实体 相似 (相等) 度 
量 。 这 些 度量 用 于 将 假设 约束 中 的 词 对 齐 到 文本 约束 中 ，。 
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文本 : A Revenue Cutter, the ship was named for Harriet Lane, niece of President James Buchanan, who served as Buchanan's White House hostess. 








T1 A Revenue Cutter is a ship. T16. Harnet Lane was related to President James Buchanan. 
T2. The ship was named for Harriet Lane. T17. Harriet Lane was the niece of a President. 
T3 Harriet Lane was the niece of President James Buchanan. T18. Harriet Lane was related to a President. 
T4. The niece of Buchanan served as Buchanan's White House hostess. TI9 Harnet Lane was related to James Buchanan. 
TS. A Revenue Cutter was named for Harriet Lane. T20. James Buchanan had title of President. 
T6. A Revenue Cutter was named for the niece of President James Buchanan. T21 James Buchanan had a White House hostess. 
T7. A Revenue Cutter was named for Buchanan's White House hostess. T22. James Buchanan had a hostess. 
T8. A Revenue Cutter was named for a White House hostess. T23 James Buchanan was associated with the White House. 
xx T9. A Revenue Cutter was named for a hostess. T24. James Buchanan had a niece. 
S T10. The niece of a President served as Buchanan's White House hostess. T25. Harnet Lane served as Buchanan's White House hostess. 
ur T11. The niece of a President served as Buchanan's hostess. T26. Harriet Lane served as Buchanan hostess. e 
38 T12. The niece of a President served as White House hostess. T27. Harriet Lane served as a White House hostess. > 
T13. The niece of a President served at the White House. T28. Harriet Lane served at the White House. N 
T14. The mece of a President had occupation hostess. T29. Harriet Lane had occupation hostess. 3 
TIS. The niece of a President served as a hostess. T30. Harriet Lane served as a hostess. 3 
假设 (34 ) : Harnet Lane owned a Revenue Cutter 假设 (36 ) : Harriet Lane worked at the White House. 5 
8 


文本 蕴涵 的 反例 文本 蕴涵 的 正 例 
图 6-9 文本 中 语 篇 约定 的 例子 [21] 






词汇 级 语义 | 解析 fel 
Reve: (Parsing) pa e 


词性 标注 / | 句法 概念 
命名 实体 | 语义 共 指 
识别 同义词 /| 时 间 | 命名 实体 
反义词 | 标准 化 | 混淆 
形态 检测 语音 行为 识别 
EE e T 









图 6-10 文本 蕴涵 框架 [22] 


在 推理 步骤 中 ， 系 统 根据 实体 和 论 元 的 匹配 情况 来 提取 特征 ， 并 且 使 用 决策 树 分 类 响 
来 判断 一 个 约束 对 是 否 代 表 一 个 有 效 的 蕴涵 实例 。 

这 个 分 类 器 是 用 标准 的 方法 训练 的 ， 使 用 从 开发 语料库 中 的 每 个 例子 提取 的 特征 。 

这 个 系统 在 RTE 3 测试 集 上 达到 了 80. 4% 的 准确 率 ， 并 且 修 改 的 系统 在 RTE 4 数据 
f rFAmgyí 74.696 ( 见 Hickl [23 D. 

尽管 系统 表现 得 很 好 ， 但 它 依赖 于 一 个 专 有 的 额外 训练 数据 的 大 语料库 ， 并 且 大 部 分 
所 使 用 的 预 处 理工 具 也 是 专 有 的 。 但 是 ， 本 质 概念 和 许多 其 他 方法 是 类 似 的 ， 即 将 表面 文 
本 分 解 成 简单 的 单元 并 且 匹 配 这 些 单元 ， 而 不 是 匹配 原来 的 词 和 人 句子。 


6. 4.2 基于 编辑 距离 的 RTE 


尽 我 们 所 知 ， 树 编辑 距离 〈 一 般 基 于 依存 分 析 结 构 ) 由 Punyakanok, Roth 和 Yih [24] 
首次 在 文本 推理 中 用 于 问答 系统 任务 中 选择 答案 。 一 些 团 队 也 在 后 来 将 树 编 辑 距离 应 用 于 
文本 蕴涵 的 任务 中 去 。( 如 Kouylekov 和 Magnini [25] Æ RTE 1 中 的 工作 )。 

Mehdad 等 人 [26] 提出 了 一 个 开源 的 关于 文本 蕴涵 的 框架 ， 称 为 “编辑 距离 文本 蕴 
涵 套 件 ” (Edit Distance Textual Entailment Suite, EDITS) [27],， 它 提供 了 一 个 基本 的 、 
可 自 定义 的 框架 ， 可 以 系统 地 开发 与 评测 基于 编辑 距离 方法 的 RTE。 这 个 框架 允许 计算 
编辑 距离 ， 通 过 在 字符 串 、 词 元 、 树 级 别 上 使 用 编辑 操作 来 将 文本 转换 成 假设 。 除 此 之 
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外 ， 它 也 允许 包含 蕴涵 和 了 矛盾 规则 ， 这 类 规则 为 一 个 从 文本 元 素 到 假设 元 素 的 转换 规则 加 
上 一 个 分 值 。 

EDITS 框架 也 定义 了 一 个 通用 的 文本 标注 格式 ， 来 表示 输入 的 文本 -假设 对 和 蕴涵 与 
矛盾 规则 。 训 练 数据 用 于 学 习 一 个 距离 模型 ， 图 6-11 展示 了 EDITS 的 工作 流程 。 


|| «pair entailincuté 
|| «pair entailment="NO”... 


«pair entailment=“?”...</pair> LN] «pair entailment-^YES"...«/pair» 
«pair entailment="?"..:</pair> | 7) «pair entailment=“NO”...</pair> 


A 





图 6-11 EDITS 工作 流程 [27] 


在 提交 到 TAC RTE 5 的 系统 中 ， 预 处 理 步骤 使 用 了 依存 分 析 、POS 标记 、 词 形 还 原 
和 形态 学 分 析 。 

图 生成 和 对 齐 步 又 整合 在 了 一 起 。 最 小 的 编辑 距离 代价 是 通过 一 个 操作 集 GGA. W 
RAER 来 决定 的 ， 每 个 操作 都 有 一 个 相应 的 代价 。 这 些 代价 是 通过 一 个 优化 算法 和 一 
个 阔 值 来 学 习 的 ， 国 值 通过 最 大 化 开发 集 的 性 能 来 得 到 。 词 级 的 替换 资源 来 自 VerbOcean 
[28]、WordNet [14] 以 及 维基 百科 的 潜在 语义 分 析 。 

通过 学 习 到 的 阅 值 ， 提 取 步 又 可 以 比较 计算 出 来 的 编辑 距离 . 如 果 蕴 涵 对 的 编辑 距离 
大 于 阅 值 ， 系 统 就 分 配 “ 非 蕴涵 ”标签 ， 反 之 分 配 “ 蕴 涵 ” 标 签 。 

基于 EDITS 的 RTE 系统 在 RTE5 的 分 数 达到 了 60. 2%， 但 是 可 以 通过 探索 新 的 蔡 换 
资源 来 提高 分 数 ， 也 可 以 通过 富 化 输入 结构 来 提高 ， 如 使 用 命名 实体 的 信息 (在 推理 步骤 
中 要 用 专门 的 相似 性 度量 ) 。 


6. 4.3 基于 转换 的 方法 


Braz 等 人 [30] 描述 了 一 个 扩展 的 蕴涵 对 中 文本 和 假设 的 基于 图 的 表示 ， 它 通过 使 用 
为 捕 提 词 、 短 语 、 句 法 以 及 谓词 - 论 元 级 信息 的 同 义 表 达 设 计 的 手写 规则 来 进行 扩展 。 他 
们 使 用 模型 论 方法 来 论证 他 们 的 系统 ， 当 规则 用 于 蕴涵 对 文本 时 ,扩展 表示 有 对 该 文本 的 
一 个 可 能 (正确 ) 的 解释 (理想 情况 下 ， 当 文本 蕴涵 假设 时 ， 使 得 文本 与 假设 更 相近 ).。 
如 果 任 何 文本 的 表达 包含 了 该 假设 ,那么 该 文本 蕴涵 了 这 个 假设 。 

包容 (subsumption) 以 整数 线性 规划 问题 来 表达 ， 根 据 文本 决定 最 小 代价 的 假设 包 
容 。 规 则 也 有 代价 ， 这 些 代价 进一步 根据 表达 规则 的 表示 级 别 来 加 权 〈 直 观 上 看 是 这 样 
Hg: 匹配 关系 一 一 因此 动词 一 一 比 匹 配 如 限定 词 等 单独 项 要 重要 ) 。 
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系统 的 预 处 理 步 骤 用 浅 层 分 析 、 句 法 分 析 、 命 名 实体 以 及 语义 角色 标注 来 标记 蕴涵 
对 。 富 化 步 双 试 图 匹配 每 条 规则 的 左 部 到 文本 图 上 。 如 规则 匹配 ， 规 则 的 右 部 则 用 来 扩充 
文本 图 。 和 迭代 多 次 ， 以 使 得 规则 可 串 起 来 应 用 几 次 。 

这 里 没有 显 式 的 对 齐 步 又 ， 推 理 步 骤 视 为 整数 线性 规划 问题 ， 根 据 文 本 决定 包容 假设 
的 最 小 代价 。 如 果 代 价 过 高 ， 蕴 涵 对 则 标记 为 非 蕴 涵 ， 否 则 标记 为 蕴涵 。 这 个 系统 已 知 在 
一 个 RTE 1 开发 集 的 子 集 上 能 够 超过 智能 的 词法 基准 系统 ， 在 RTE 1 测试 集 上 达到 
56. 1% 的 准确 率 〈 两 个 最 好 的 系统 准确 率 均 为 58. 6%)。 

Bar-Haim 等 人 [29] 描述 了 一 个 转换 基于 句法 分 析 表 示 的 蕴涵 对 文本 的 构架 ， 使 
用 规则 来 表示 句法 分 析 树 中 的 片段 。 手 工 编 码 规则 被 用 于 抽象 大 量 的 句法 变 体 。 这 些 规 
则 使 用 占 位 符 来 把 两 个 句法 树 结构 片段 组 成 一 对 ， 占 位 符 表示 子 树 在 转换 中 不 发 生变 
化 。 图 6-12 SETTAT. 


ROOT ROOT 
i | i 
rainvgnn rainverr 
expletive wha expletive wha 
lonas whenprep itorner whenprep 
i il 
T SeevERB bi SeeVERB 
0 su 
J] ; y mod J] obj mod 
Marynoun bevers byprep yesterdayxoun Marynoun esterda 
mod| l a Al — mod d TES 
beautiful4p; Johnyoun beautiful,p; 


原始 名 : It rained when beautiful Mary was seen by John yesterday #53): It rained when John saw beautiful Mary yesterday 
a) 被 动 式 到 主动 式 转换 的 应 用 实例 
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sd ie ee 
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b) 被 动 式 到 主动 式 的 转换 ( 置换 规则 ) 。 虚 线 弧 代表 对 章 
图 6-12 ”一 个 推导 规则 的 应 用 实例 ,来 自 Bar-Haim 等 人 [29] 


在 RTE 过 程 的 富 化 步骤 中 ， 规 则 的 头 与 文本 的 结构 进行 对 比 。 如 果 它 们 匹配 ， 则 通 
过 规则 体 来 生成 新 的 句法 分 析 树 。 由 规则 占 位 符 识 别 的 原始 文本 结构 的 子 树 复制 到 新 分 析 
树 的 对 应 位 置 。 

推理 步骤 从 最 匹配 的 文本 一 列 涵 表示 对 〈 由 距离 度量 定义 ) PEBRE, Ae 85 Hj 
这 些 特征 来 预测 蕴涵 标签 。 

为 了 训练 分 类 器 ， 使 用 相同 的 步骤 。 首 先 抽取 特征 ， 然 后 按照 标准 有 监督 学 习 的 方式 
来 使 用 蕴涵 对 的 特征 表示 以 及 蕴涵 对 的 标签 。 系 统 的 一 个 版 本 在 RTE 4 上 获得 了 60.5% 
的 准确 率 (Bar-Haim 等 人 [31]). 

这 些 方 法 的 一 个 缺点 是 需要 很 多 的 规则 来 获得 很 多 可 能 的 句法 变 体 ; 制作 此 类 人 工 编 
写 的 规则 是 一 个 高 成 本 工作 ， 这 无 疑 是 个 问题 。 然 而 ， 直 接 融 合 世界 知识 的 方法 是 很 有 吸 
引力 的 ， 因 为 要 使 RTE 取得 显著 的 提升 ， 必 须 克 服 融合 背景 知识 这 个 难题 。 
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6.4.4 逻辑 表示 及 推理 


Clark 和 Harrison [33] 提出 的 BLUE (Boeing Language Understanding Engine) 系统 是 
一 种 基于 形式 逻辑 的 RTE 方 法 。BLUE 先 把 文本 转换 成 一 种 基于 逻辑 的 表示 ， 然 后 使 用 定理 
证 明 系 统 从 这 种 表示 中 推出 假设 。 

BLUE 系统 是 一 个 两 级 流水 线 ， 如 
图 6-13 所 示 。 最 开始 ， 文 本 和 假设 使 用 
自 底 向 上 的 线 图 分 析 算 法 来 分 析 成 逻辑 TH 
表示 [34]。 这 个 逻辑 形式 是 一 个 有 逻 
辑 - 类 型 元 素 的 简化 树 状 结构 。 它 融合 了 
一 些 预 处 理 中 的 步骤 ， 如 依存 分 析 、 
POS 标注 、 名 词 以 及 共 指 消解 。 情 态 属 LR 
性 ， 如 复数 、 时 态 和 否定， 用 逻辑 形式 图 6-13 BLUE 系统 架构 [32] 
的 特殊 谓词 来 表示 。 这 种 逻辑 表示 用 于 
HET Ze. AGE WordNet 的 包容 及 等 价 信息 ， 以 及 从 文本 中 发 现 的 推理 规则 (Discovery 
of Inference Rules from the Text，DIRT)。 如 果 这 个 逻辑 推理 步骤 不 能 判断 出 蕴涵 或 矛 
盾 ， 则 使 用 词 袋 对 齐 模型 作为 一 个 后 备 推 理 模 块 〈 与 WordNet 和 DIRT 一 起 使 用 ) 。 

通过 使 用 定理 证 明 系 统 来 寻找 从 文本 到 假设 的 推理 链 ，BLUE 下 试图 寻找 蕴涵 决策 的 
解释 。 但 是 它 受 限于 知识 源 以 及 如 句法 分 析 和 语义 分 析 等 预 处 理 阶 段 的 错误 。 另 外 ， 根 据 
Clark 和 Harrison [33] 提出 的 分 析 ， 文 本 中 一 些 隐 含 信息 的 存在 ， 以 及 缺乏 能 够 填补 文 
本 和 假设 间 语 义 差距 的 知识 ， 限 制 了 系统 的 表现 (在 RTE 5 上 分 值 为 61. 5%)。 

这 个 系统 一 个 非常 好 的 特点 是 为 标注 产生 一 个 解释 ， 这 个 解释 让 人 们 可 以 确定 错误 的 
根源 ， 并 且 可 以 评价 这 个 系统 的 可 靠 性 : 如 果 对 于 给 定 的 蕴涵 例子 解释 是 可 取 的 ， 我们 就 
可 以 确信 对 于 相似 领域 的 未 知 例子 ， 这 个 系统 也 可 以 有 很 好 的 表现 。 


6.4.5 ”独立 于 蕴涵 学 习 对 齐 


De Marneffe 等 人 [35」 独 立 于 RTE 来 研究 对 齐 ， 他 们 提出 对 齐 可 以 认为 是 识别 文本 
中 相关 的 部 分 ， 以 及 这 上 比 确定 文本 中 的 哪 部 分 蕴涵 假设 要 简单 的 想法 。 他 们 把 对 齐 形式 化 
为 一 个 最 优化 问题 ， 考 虑 假设 中 单个 词 元 以 及 由 依存 边 相 连 的 假设 词 元 对 的 对 齐 。 他 们 使 
用 人 工 标 注 对 齐 数据 来 训练 他 们 的 对 齐 工 具 ， 用 他 们 自己 的 方法 来 评测 对 齐 工 具 。 在 
MacCartney, Grenager 和 DeMarneffe [36] 所 描述 的 荀 涵 系统 中 ， 上 自动 对 齐 工 具 是 对 齐 
步骤 的 基础 ， 它 用 作 全 局 分 类 器 特征 源 。 这 些 学 者 提出 一 个 有 用 的 构想 ， 通 过 目标 函数 来 
表达 对 齐 。 但 是 他 们 的 方法 有 一 个 缺点 ， 即 需要 标注 的 对 齐 数据 去 训练 这 个 系统 ， 这 需要 
很 多 的 时 间 和 资源 来 构建 。 

MacCartney、Galley 和 Manning [37] 将 对 齐 问题 扩 展 到 短语 级 别 〈 在 这 里 短语 仅仅 
意味 着 连续 的 文本 区 间 )， 并 且 通 过 对 假设 文本 中 短语 的 相等 、 蔡 换 、 插 入 和 删除 操作 来 
形成 对 齐 分 值 。 他 们 用 Brockett [38] 生成 的 词法 对 齐 标记 来 训练 模型 。 尽 管 他 们 表示 该 
方法 比 基 于 两 个 词法 级 别 对 齐 的 基准 系统 有 提升 ， 但 他 们 在 同一 系统 的 短语 级 和 词 元 级 对 
齐 中 并 没有 观察 到 显著 差异 〈 即 短语 的 大 小 固定 为 一 个 词 元 ) 。 

这 种 方法 的 局 限 是 ， 它 似乎 无 视 已 知 的 成 分 边界 ， 而 且 并 没有 提供 一 个 明晰 的 机 制 来 
应 用 专门 的 相似 资源 ， 只 能 对 连续 文本 区 间 进 行 统一 处 理 。 此 外 ， 它 需要 有 标记 的 对 齐 数 
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据 ， 这 只 存在 有 限 数据 ， 而 且 都 在 词 元 级 。 然 而 ， 他 们 对 于 训练 对 齐 工具 以 及 运行 时 探索 
对 齐 的 可 能 空间 问题 的 解决 方法 是 十 分 优雅 与 清晰 的 。 


6.4.6 在 RTE 中 利用 多 对 齐 


RTE 系统 开发 者 希望 使 用 更 深层 的 NLP 分 析 禹 ， 他 们 面临 的 两 个 难点 是 : 整合 运行 
在 不 同 粒度 上 ( 词 、 短 语 、 语 法 和 谓词 - 论 元 级 别 ) 的 NLP 分 析 器 ， 以 及 用 一 种 跨越 不 同 
表示 层 的 一 致 方法 来 应 用 相似 度量 以 及 其 他 知识 资源 〈 如 规则 )。 在 基于 对 齐 和 全 局 相似 
BREW RTE 方法 中 ， 在 试图 整合 多 个 知识 资源 时 会 出 现 问 题 ， 因 为 资源 是 为 不 同 的 任务 而 
准备 ， 即 使 当 它 们 都 返回 实 值 分 数 时 ， 也 可 能 有 不 兼容 的 输出 。 例 如 ， 一 个 命名 实体 度量 
可 能 会 返回 一 个 0. 6 的 分 值 ， 这 表示 相对 较 低 的 相似 度 ， 而 一 个 基于 WordNet 的 度量 可 
能 返回 相同 的 值 以 表示 相对 较 高 的 相似 度 : 他 们 的 分 值 是 不 兼容 的 ， 因 为 返回 相同 的 分 值 
并 没有 等 价 的 意义 。 

Sammons 等 人 [18] 试图 解决 这 两 个 问题 ， 他 们 描述 了 一 个 多 视图 方法 ， 该 方法 中 
不 同 的 NLP 分 析 源 呈现 于 不 同 的 数据 视图 中 ， 尽 管 可 比 的 表示 层次 可 能 被 融合 在 同一 视 
图 中 。 专 业 知 识 资源 被 编码 为 对 这 些 个 体 视图 进行 操作 的 度量 。 他 们 的 系统 对 每 个 蕴涵 对 
中 的 文本 和 假设 使 用 多 对 齐 ， 根 据 不 兼容 的 度量 将 视图 区 分 成 不 同 的 对 齐 。 

特征 在 单一 对 齐 和 多 个 对 齐 上 进行 定义 ， 根 据 如 下 的 观察 ，〈 例 如 ) 如 果 词 汇 级 的 对 
齐 或 基于 语义 角色 的 谓词 - 论 元 结构 的 对 齐 表示 蕴涵 ， 但 使 用 数量 度量 的 对 齐 不 表示 殖 涵 ， 
这 是 一 个 很 好 的 迹象 ， 显 示 出 该 文本 并 不 蕴涵 假设 。 这 些 特 征用 来 训练 一 个 分 类 硕 。 

多 视图 、 多 对 齐 的 模型 允许 以 一 种 模块 化 的 方法 来 融合 新 的 NLP 分 析 方 法 和 知识 
源 ， 基 于 机 器 学 习 的 推理 组 件 允 许 系统 确定 来 自 不 同 分 析 数 据 源 的 线索 的 可 徘 性 。 

该 系统 与 其 他 基于 对 齐 的 系统 相 比 有 竞争 力 ， 在 RTE 5 二 元 任务 中 得 到 66. 6% 的 分 值 。 


6.4.7 自然 逻辑 


MacCartney 和 Manning [17] 提出 一 个 基于 自然 逻辑 的 表示 与 推理 过 程 的 框架 来 应 
对 文本 蕴涵 的 挑战 。 在 这 种 方法 中 ， 用 接近 原来 表面 形式 、 不 涉及 完整 的 语义 解释 的 句法 
形式 来 刻画 有 效 推理 模式 。 

基本 思想 是 将 蕴涵 过 程 分 解 成 一 系列 较 小 的 蕴涵 决策 ， 将 部 分 文本 与 部 分 假设 进行 比 
较 ， 并 关联 到 封闭 操作 集中 的 一 个 操作 ， 这 个 操作 表明 了 两 者 之 间 的 语义 关系 。 例 如 ， 语 
义 包含 (semantic containment) 能 识别 出 何 时 一 个 概念 推广 另 一 个 概念 ， 而 语义 排除 
(semantic exclusion) 指示 当 一 个 概念 为 真 时 ， 则 排除 男 一 个 为 真 。 

他 们 还 对 上 下 文 结构 进行 分 类 ， 在 承认 文本 蕴涵 假设 时 ， 上 下 文 结构 会 影响 给 定 关 系 
的 有 效 性 ， 这 依据 极 性 和 单调 性 进行 表示 。 极 性 必须 兼容 才能 允许 蕴涵 ， 极 性 还 需 考虑 总 
涵 对 中 表达 的 动词 的 否定 和 情态 修饰 。 单 调 性 说 明了 一 个 文本 概念 是 否 比 它 在 假设 中 相应 
的 部 分 更 一 般 或 者 更 特殊 ， 往 往 出 现在 结构 中 一 些 特别 类 型 上 ， 例 如 全 称 量化 的 陈述 句 。 

为 了 确定 蕴涵 ， 该 文本 首先 被 表示 为 一 个 基本 语义 关系 (前提)， 然 后 用 一 系列 的 编 
辑 操 作 来 将 这 个 前 提 转 换 为 假设 。 对 于 每 个 编辑 操作 ， 使 用 一 个 统计 分 类 器 来 预测 一 个 词 
汇 蕴 涵 关 系 ， 这 些 关 系 根据 中 间 节 点 的 语义 属性 通过 句法 树 向 上 传播 。 最 后 一 步 根 据 编辑 
序列 写 出 蕴涵 关系 结果 ，。 

此 方法 适合 简单 的 句子 ， 例 如 那些 在 FraCaS 语料库 中 的 句子 (Cooper 等 人 [39 D. 
但 是 要 从 蕴涵 对 的 文本 中 抽取 可 靠 的 基础 前 提 是 非常 困难 的 ， 因 为 这 往往 需要 世界 性 的 知 
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识 来 推断 那些 能 紧密 反映 假设 中 结构 的 关系 。 为 了 将 自然 逻辑 推理 应 用 到 RTE 任务 上 ， 
Pado 等 人 [40」 用 一 个 直接 的 线性 函数 来 融合 之 前 描述 的 对 齐 系 统 以 及 NatLog 编辑 距 
离 ， 并 在 RTE 4 上 获得 了 62.75 89 2 IC. 


6.4.8 句法 树 核 


Mehdad, Zanzotto 和 Moschitti [41] 提出 的 SemKer 系统 ， 使 用 句法 树 核 来 定义 文 
本 树 对 和 假设 树 对 之 间 的 相似 度 ， 这 些 树 对 是 从 每 对 蕴涵 例子 中 取得 ， 并 通过 基于 维基 百 
科 的 相似 度 度量 来 扩展 模型 。 系 统 使 用 基于 依存 树 的 表示 ， 通 过 词汇 或 语义 匹配 抽象 节 
点 。SemKer 通过 句法 语义 树 核 (Syntactic Semantic Tree Kernel, SSTK) [42] 来 计算 词 
项 间 的 相似 度 ， 这 种 方法 用 片段 〈 子 树 ) 匹配 来 编码 词汇 相似 度 。 

系统 有 一 个 初步 的 词汇 对 齐 阶段 ， 在 这 个 阶段 建立 潜在 的 子 树 -匹配 位 置 ， 称 为 锚 点 (an- 
chor)。 这 些 关 注 子 树 - 匹 配 组 件 的 应 用 ， 为 每 个 蕴涵 对 确定 最 终 的 文本 和 假设 之 间 的 对 齐 。 

为 了 训练 推理 模型 ， 这 些 锚 点 被 抽象 成 一 般 占 位 符 ， 男 一 个 基于 树 核 的 相似 度 函 数 被 应 
用 于 比较 蕴涵 对 之 间 的 对 齐 模式 。 目 标 是 学 习 更 一 般 的 结构 对 应 ， 以 适用 于 多 个 蕴涵 对 。 使 
用 对 间 (interpair) 距离 度量 和 剖 涵 实例 标签 来 训练 一 个 支持 向 量 模型 ， 这 种 模型 用 于 他 们 
RTE 系统 的 推理 步骤 中 。 

Æ RTE 5 上 这 个 系统 表现 良好 ， 在 二 元 标注 任务 中 达到 66. 2 为 的 准确 率 〈 前 5 名 )。 为 
了 能 获取 目 然 语言 文本 中 所 允许 的 更 大 范围 的 句法 信息 ， 进 而 提升 性 能 和 泛 化 能 力 ， 该 方法 
似乎 需要 更 多 的 训练 数据 。 如 果 使 用 Hickl [23] 描述 的 专 有 语料库 进行 训练 ， 系 统 的 性 能 
会 如 何 变化 令 人 非常 感 兴趣 。 


6.4.9 使 用 有 限 依存 上 下 文 的 全 局 相似 度 


Iftene 和 Moruz [20] 开发 的 系统 在 RTE 5 上 执行 二 元 或 三 元 蕴涵 任务 时 表现 均 为 最 佳 。 
他 们 系统 的 结构 ， 和 许多 其 他 成 功 的 系统 一 样 ， 非 常 接近 我 们 在 6.3 节 所 描述 的 系统 。 

在 预 处 理 步 双 中， 蕴涵 对 中 的 文本 首先 通过 扩展 缩写 〈 如 将 isnt SMA is not) 以 及 
替换 某 些 标点 符号 来 进行 规范 化 。 这 提高 了 他 们 所 使 用 的 现成 包 的 性 能 。 获 涵 对 的 导出 表 
示 基 于 依存 分 析 树 ， 由 命名 实体 信息 来 扩充 。 预 处 理 步 又 也 应 用 了 一 些 自 定义 的 数据 源 ， 
这 些 数据 源 标注 特定 的 关系 (如 “work-for”)、 数 量词 和 语言 。 

对 齐 步骤 有 局 部 和 全 局 的 分 值 函 数 。 首 先 ， 每 个 假设 成 分 被 映射 到 最 优 的 候选 文本 成 
分 。 此 过 程 包括 应 用 从 WordNet、 维 基 百 科 、VerbOcean 和 其 他 自 定 义 资源 中 导出 的 规则 
来 识别 不 相似 的 文本 -假设 词 项 对 间 可 能 的 映射 这 些 映 射 具 有 相应 的 分 值 。 这 些 局 部 适 
应 性 分 值 也 考虑 了 被 比较 节点 的 父 节 点 和 连接 它们 的 依存 边 的 类 型 。 

接着 这 些 局 部 对 齐 分 值 被 整合 ， 并 根据 对 齐 的 全 局 特征 做 了 一 些 调 整 ， 如 假设 中 的 命 
名 实体 是 否 匹 配 文本 中 的 实体 ， 以 及 对 齐 的 谓词 是 否 在 文本 和 假设 之 一 中 被 否定 ， 而 在 为 
一 个 中 则 没有 。 

这 个 推理 步骤 在 最 终 分 值 中 使 用 了 两 个 阅 值 : 一 个 更 高 的 阅 值 用 来 区 分 蕴涵 和 非 蕴 
涵 ， 而 一 个 较 低 的 阐 值 用 来 区 分 未 知 和 了 蔬 盾 。 对 这 些 阅 值 进行 调整 ， 使 得 系统 在 开发 集 上 
执行 三 元 任务 时 达到 最 佳 性 能 ; 通过 把 未 知 和 矛盾 标签 合并 为 非 蕴 涵 标 签 ， 二 元 标注 可 以 
直接 从 三 元 标注 中 导出 。 

该 系统 在 RTE 5 三 元 任务 和 二 元 任务 中 分 别 达到 了 68.5% Ml 73.5% WEE. 
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6.4.10 RTE 的 潜在 对 齐 推理 


Chang 等 人 [43] 开发 了 一 个 联合 学 习 方法 ， 这 种 方法 学 习 荀 涵 决 策 伴随 着 学 习 一 种 
中 间 表 示 ， 这 种 中 间 表 示 能 对 齐 文本 和 假设 。 中 间 对 齐 级 别 无 须 假 定 为 有 监督 学 习 。 他 们 
AY RTE 和 需要 通过 中 间 表 示 进 行 学 习 的 其 他 问题 提出 了 一 种 通用 的 学 习 框 架 。 

这 个 框架 使 用 声明 性 整数 线性 规划 (Integer Linear Programming, ILP) 推理 公式 
(参考 Chang, Ratinov 和 Roth [44j)， 可 以 很 容易 地 用 二 元 变量 来 定义 中 间 表 示 ， 知 识 可 
以 作为 模型 的 约束 进行 添加 。 这 个 模型 假定 所 有 正 例 至 少 有 一 个 好 的 中 间 表 示 (对 齐 )， 
而 反例 没有 好 的 中 间 表 示 。 

在 训练 过 程 中 ， 如 果 模 型 产生 一 个 很 好 〈 有 效 ) 的 对 齐 ， 意 味 着 基于 由 这 个 对 齐 触 发 
的 特征 而 产生 的 蕴涵 决定 是 正确 的 ， 学 习 阶 段 使 用 这 样 的 对 齐 作 为 正 例 来 训练 蕴涵 分 类 
器 ， 并 且 还 对 这 个 对 齐 模 型 提供 反馈 。 

用 图 来 表示 文本 和 假设 ， 其 中 单词 和 短语 是 节点 ， 词 间 的 依存 关系 是 边 。 此 外 ， 有 向 
边 将 动词 连接 到 它们 语义 角色 标记 论 元 的 中 心 词 上 。 在 文本 图 和 假设 图 中 ， 这 种 节点 和 边 
的 映射 定义 了 对 齐 。 使 用 词 映 射 和 边 映射 之 间 的 关系 来 约束 对 齐 变 量 : 例如 ， 仅 当 相 应 的 
词 映 射 激活 时 ， 边 映射 才 激 活 。 

这 种 方法 的 一 个 关键 是 对 齐 步骤 没有 被 要 求 作为 一 个 单独 、 独 立 的 任务 ; 相反 ， 定 义 
一 个 对 齐 结构 的 空间 ， 目 标 应 用 的 标准 答案 训练 标签 与 优化 方法 一 起 使 用 ， 来 确定 目标 任 
务 的 最 优 中 间 表 示 ， 即 能 最 大 限度 地 提高 目标 任务 的 性 能 表示 。 这 省 略 了 中 间 结 构 所 需 的 
昂贵 的 标注 工作 。 

Chang 等 人 [43] 在 音译 发 现 (transliteration discovery), 、 复 述 识 别 和 文本 蕴涵 识别 
方面 应 用 他 们 的 框架 。 对 于 RTE 任务 ， 预 处 理 步骤 使 用 命名 实体 、 依 存 分 析 、 语 义 角 色 
标注 以 及 共 指 分 析 ， 将 它们 合 为 一 个 单一 的 、 规 范 的 图 形 结 构 。 图 生成 步骤 使 用 词 和 命名 
实体 的 相似 性 度量 (请 参考 Do 等 人 [L45])， 但 也 计算 文本 和 假设 边 之 间 的 对 齐 边 ， 这 里 
边 的 源 端 和 尾 端 也 进行 对 齐 。 

对 齐 和 推理 步骤 整合 为 一 步 ， 并 且 最 优 的 对 齐 和 最 优 的 蕴涵 决策 是 基于 训练 过 程 学习 
到 的 特征 权重 。Chang SA [5] 的 系统 在 RTE 5 语料库 上 执行 二 元 任务 获得 了 66. 87589 
准确 率 。 


6.5 RTE 的 进一步 研究 

6-2 中 的 结果 表明 ， 在 RTE 能 够 解决 问题 之 前 还 有 很 长 的 路 要 走 。 从 这 一 章 中 
给 出 的 各 种 例子 可 以 很 明显 地 看 出 ， 可 靠 识 别 文本 蕴涵 需要 处 理 许多 更 小 的 蕴涵 现象 ， 
例如 确定 两 个 字符 串 指向 相同 的 底层 实体 ， 或 者 应 用 背景 知识 来 推断 文本 中 没有 明确 注 
明 的 东西 。 在 本 节 中 ， 我 们 展示 一 些 特别 重要 的 能 力 以 此 对 未 来 研究 提供 可 能 的 关注 
点 ， 这 些 能 力 目 前 还 没有 (足够 的 ) 开发 。 


6.5.1 tjr um 


所 有 成 功 的 RTE 方 法 都 取决 于 其 他 NLP 工具 的 输入 。 标 注 越 复 杂 ， 相 应 工具 性 能 越 
差 。 提 高 资源 的 性 能 ， 例 如 命名 实体 识别 器 和 句法 分 析 器 ， 就 能 有 助 于 提高 依赖 于 它们 的 
RTE 组 件 的 性 能 。 这 点 在 Bar-Haim $A [29] 的 RTE 系统 上 表现 特别 明显 ， 因 为 它 使 
用 基于 分 析 结 构 的 规则 来 宣化 输入 信息 。 
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学 者 们 普遍 认为 ， 对 文本 推 灯 的 一 个 很 重要 的 功能 是 共 指 消解 。 尽 管 共 指 消解 系统 在 按 
某 种 目标 建造 的 语料库 上 取得 了 不 错 的 表现 ,但 它们 (与 其 他 NLP 应 用 一 样 ) 在 其 他 领域 
的 原文 本 上 的 表现 就 差 了 很 多 。 性 能 下 降 部 分 原因 是 过 拟 合 评 测 领域 ， 以 及 评测 本 身 所 做 的 
假设 。 特 别 地 ， 系 统 在 将 共 指 短语 〈 即 非 指 代 ) 提 及 指向 正确 实体 方面 表现 非常 差 。 


6.5.2 发 明 或 解决 新 问题 


有 很 多 语言 学 现象 似乎 和 RTE 相关 但 却 没有 现存 的 NLP 资源 ， 甚 至 自然 语言 处 理 社 
区 都 没有 把 它们 看 作 必 要 的 任务 。 某 些 问题 即使 被 认为 是 潜在 有 用 的 ， 但 还 可 能 缺乏 相关 
的 语料库 。 

一 个 较为 相关 例子 是 迹 (trace) RWA (parasitic gap) WE: 识别 出 句子 中 作者 隐 指 他 
物 ， 需 要 读者 通过 上 下 文 语 境 补足 空缺 的 部 分 : 例如 ， 在 句子 “John Sold apples. Jane oran- 
ges” 里 ， 人 们 会 推断 出 “Jane” 和 “oranges” 之 间 的 关系 是 “Sold”。 通 过 句法 分 析 器 来 填 
补 空缺 的 尝试 ， 正 如 Dienes 和 Dubey [46] 所 做 的 ， 只 取得 了 有 限 的 成 功 ， 部 分 是 因为 句法 
分 析 需 并 不 是 完全 正确 的 ， 还 因为 原始 标注 CUL Marcus, Santorini 5 Marcinkiewicz [47 ]) 
不 一 致 。 

还 有 一 个 相关 问题 是 零 形 回 指 解 析 。 例 如 ， 在 句子 “一 个 雨天 就 够 糟 的 了 ， 一 连 三 个 
简直 无 法 忍受 。” 中 ， 人 会 认为 “三 个 ” 指 的 是 “三 个 雨天 ”。 虽 然 有 些 文献 讨论 了 这 个 问 
题 ， 但 是 到 目前 为 止 ， 还 没有 被 社区 广泛 使 用 的 应 用 程序 存在 。 

NLP 工具 通常 只 标记 显 式 内 容 ， 文 中 所 描述 的 问题 需要 额外 的 大 量 处 理 。 如 果 这 些 
问题 能 够 得 到 解决 一 一 例如 ， 通 过 识别 出 内 容 缺 失 的 地 方 ， 或 能 更 好 ， 添 加 缺失 内 容 一 一 
一 些 NLP 分 析 器 能 为 RTE 和 其 他 NLP 任务 产生 更 有 用 的 输出 。 

还 有 一 个 值得 长 期 关注 的 话题 是 篇 章 结 构 。 更 困难 的 RTE 例子 需要 综合 分 散在 多 个 
句子 中 的 信息 。 在 RTE 5 试验 的 搜索 任务 中 ，Mirkin 等 人 [48] 观察 到 在 一 些 新 文章 中 ， 
需要 标题 中 的 信息 才能 完全 理解 文章 中 的 句子 。 一 些 事件 中 的 关系 ， 如 因果 及 时 间 ， 可 能 
通过 不 限于 一 个 句子 的 结构 来 传达 一 一 而 单 句 通常 为 许多 NLP 工具 的 处 理 边界 。 篇 章 结 
构 能 够 指出 长 距离 依存 ， 但 篇 章 结 构 还 是 NLP 研究 中 的 一 个 开放 性 话题 。 随 着 Penn Dis- 
course Treebank [49] 的 公布 ,已 经 出 现 了 一 些 适 于 开发 某 类 长 距离 依存 分 析 的 资源 。 





6.5.3 ”开发 知识 


还 有 许多 已 知 的 蕴涵 现象 没有 在 RTE 语料库 中 被 明显 表现 出 来 ,但 对 能 进行 自然 
语言 理解 的 系统 而 言 是 必要 的 。 特 别 是 ， 某 些 人 类 无 意识 的 推理 对 上 自动 系统 而 言 是 一 个 
很 大 的 挑战 ， 因 果 和 空间 推理 便 是 很 好 的 例子 (图 6-14 及 图 6-15 展示 了 RTE 5 语料库 
中 的 样 例 )。 

因果 推理 与 人 们 应 用 的 表达 领域 相关 的 因果 关系 的 世界 知识 有 关 : Ain, EHA 
炸 ， 而 爆炸 会 造成 死伤 。 | 

在 图 6-14 的 蕴涵 对 里 ， 人 必需 推断 出 人 对 所 站 的 结构 上 施 力 〈 重 力 )， 桥 上 的 重量 越 大 
就 暗示 着 人 越 多 。 因 此 假设 中 桥 南 塌 的 原因 表达 为 “重量 太 大 ”而 非 “ 人 太 多 ”是 合理 的 。 

在 图 6-15 的 蕴涵 对 里 ,文本 表达 了 巴格达 和 华盛顿 的 政治 领袖 都 很 关心 爆炸 案 ， 然 
后 详细 描写 了 三 个 爆炸 案 ， 读 者 必须 推断 出 “巴格达 南部 ” (south of Baghdad) 意味 着 
“在 巴格达 地 区 ”(in the Baghdad area)， 并 且 因 为 地 处 伊拉克 (这 能 通过 地 理 背 景 知识 
推断 出 ) Abu Gharib 也 可 以 被 当 作 “在 巴格达 地 区 ”， 至 少 在 给 出 的 上 下 文中 如 此 。 
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X 7k: Local health department officials were quoted as saying that the bridge over the Santa Barbara river. In south- 


ern Peru's Ayacucho province, "broke in two" as students and teachers from four rural schools were crossing 
it while going home *** Local police said the 120-meter bridge, made of wooden boards and slats held together 
by steel cables, collapsed because too many people were on it. 


: The Peruvian bridge in Ayachuco province broke because of the weight on it. 





图 6-14 需要 理解 因果 关系 的 RTE 5 例子 (开发 集 ， 文 本 有 截断 ) 


Three major bombings in less than a week will be causing some anxiety among political leaders in Baghdad and 
Washington. Last Thursday 10 people were killed by a car bomb at a crowded cattle market in Babel province, 
south of Baghdad. On Sunday more than 30 died when a suicide bomber riding a motorbike blew himself up at 
a police academy in the capital Tuesday's bombing in Abu Ghraib also killed and wounded a large number of 


people — including journalists and local officials. 





假设 : Some journalists and local officials were killed in one of the three bombings in the Baghdad area. 


图 6-15 ”需要 理解 空间 关系 的 RTE 5 例子 (开发 集 ， 文 本 有 截断 ) 


其 他 类 型 的 推理 ， 如 需要 从 图 6-16 中 的 蕴涵 对 中 识别 多 种 亲属 关系 ， 进 而 确定 蕴涵 
对 间 的 各 种 强 联 系 。 这 些 推 理 不 够 一 般 ， 但 是 在 NLP 任务 中 有 代表 性 。 在 这 里 ， 用 一 种 
一 致 的 、 足 够 无 歧义 并 且 RTE 系统 可 使 用 的 方法 来 表示 知识 是 一 个 挑战 。CYC 数据 集 
[50] 是 一 个 大 知识 库 ， 以 一 种 一 致 的 逻辑 形式 精心 编码 。 由 于 表示 的 限制 ， 这 个 数据 集 
没有 被 大 规模 使 用 。 然 而 ，Lin 以 及 Pantel 的 DIRT 规则 [51] 被 广泛 认为 是 一 种 可 用 形 
A 〈 带 有 实体 位 置 的 依存 树 路 径 ) ， 但 是 对 于 实际 使 用 而 言 ， 品 声 过 多 CUL Clark 与 Har- 
rison [33] 以 及 Bentivogli 等 人 [5] 的 研究 来 找到 一 些 例子 )。 由 类 似 TextRunner [52] 
的 OpenIE 方法 识别 的 “事实 ”也 有 很 多 噪声 ， 在 RTE 中 的 用 处 仍 有 待 证 实 。 


文本 : British newsreader Natasha Kaplinsky gave birth to a baby boy earlier this morning at around 08:30 BST. She 


had been on maternity leave since August 21. Kaplinsky had only been working with Five News just over a 
month when she announced she was pregnant. Her husband of three years, investment banker Justin Bower 
announced *We" re absolutely thrilled. ” 


假设 : Natasha Kaplisky and Justin Bower got married three years ago. 
图 6-16 ”需要 理解 亲属 关系 的 RTE 5 例子 (开发 集 ， 文 本 有 截断 ) 


一 种 以 合适 表示 呈现 的 通用 领域 的 无 噪声 规则 集 将 会 是 很 有 价值 的 财富 。Szpektor 等 
A [53] 提出 了 一 个 很 有 前 景 的 表示 。 


6.5.4 更 好 的 RTE 评价 


现 有 的 对 RTE 的 评价 主要 集中 于 绝对 性 能 上 ， 给 定 系统 ， 在 二 元 任务 中 报告 预测 两 
个 标签 之 一 (蕴涵 与 非 蕴 涵 ) 的 准确 度 ， 或 在 三 元 任务 中 报告 预测 三 个 标签 之 一 〈 列 涵 、 
矛盾 与 未 知 ) 的 性 能 准确 度 。 从 人 类 推理 的 角度 ，RTE 研究 者 所 面临 的 一 个 问题 是 ， 预 
测 标签 需要 涉及 做 其 他 的 蕴涵 决策 ， 而 单个 标签 并 没有 给 我 们 提供 系统 如 何 处 理 这 些 更 小 
决策 的 信息 。 在 图 6-15 的 例子 中 ,一 个 人 必须 推断 出 文本 中 报道 了 三 件 爆炸 案 ， 短 语 
“包括 记者 和 当地 官员 ” (including journalists and local officials) 是 “一 大 群 人 ” (a 
large number of people) 所 指 的 实体 ， 并 且 文 本 中 提 及 的 三 处 地 点 全 部 位 于 巴格达 地 区 。 
如 果 不 知道 系统 实际 上 是 如 何 解 决 这 些 问 题 的 ， 我 们 就 无 法 预知 系统 所 使 用 的 方法 在 处 理 
需要 相似 推理 的 新 蕴涵 问题 时 是 否 可 靠 : 例如 ， 系 统 可 能 预测 错 了 蕴涵 标签 ， 但 是 可 能 正 
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确 解决 了 需要 空间 知识 的 推理 问题 。 如 果 开 发 蕴涵 子 问 题 的 可 靠 解决 方案 ，RTE 社区 可 
通过 认识 并 重用 这 些 方 案 来 避免 重复 劳动 并 且 将 注意 力 转向 其 他 所 需 的 能 力 。 

针对 这 个 问题 有 两 个 明显 的 解决 方案 : 要求 系统 来 为 它们 的 答案 提供 解释 并 且 使 用 比 
当前 二 元 或 三 元 标签 更 多 的 信息 来 标注 RTE 实例 。 

至 少 有 一 个 RTE 系统 (Clark 与 Harrsion [33] 已 经 可 以 生成 解释 ， 这 对 识别 知识 
资源 里 的 缺陷 是 很 有 帮助 的 。 尽 管 该 系统 严重 依赖 于 其 形式 逻辑 推理 过 程 ， 而 该 过 程 在 处 
理 有 噪声 的 输入 时 是 很 脆弱 的 。 尽 管 有 了 该 系统 ， 解 释 里 的 步骤 也 不 总 是 很 清晰 ， 并 且 无 
法 证 实 人 类 推理 的 步骤 能 够 完全 契合 这 个 形式 体系 。 

一 个 解释 的 标准 格式 一 一 以 及 相应 蕴涵 实例 的 标注 一 一 能 进一步 使 得 RTE 系统 开发 
者 用 一 种 系统 的 、 合 作 的 方法 来 生成 解释 成 为 可 能 ， 而 不 是 大 家 各 行 其 是 。 

第 二 种 选择 是 更 完整 地 标记 RTE 实例 ， 而 不 使 用 特定 的 解释 表示 。 作 为 一 个 部 分 措 
施 ， 需 要 一 个 决定 以 及 记录 蕴涵 对 蕴涵 标签 所 需 的 蕴涵 现象 的 标注 标准 ， 这 个 标准 至 少 能 
够 对 给 定 RTE 系统 特性 有 大 致 的 理解 ， 这 是 通过 检查 正确 标记 的 实例 以 及 活路 的 蕴涵 现 
象 之 间 的 联系 来 完成 的 。 

另外 ， 这 样 的 标记 能 让 研究 者 快速 抽出 带 有 特定 特性 的 列 涵 语料库 ， 可 以 根据 RTE 
的 性 能 来 评价 特定 现象 的 资源 。Sammons、Vydiswaran 5 Roth [54] 提出 了 这 些 问题 以 
及 标注 标准 。 


6.6 有 用 资源 


本 节 将 给 出 一 些 在 RTE 挑战 赛 评测 中 的 RTE 系统 所 使 用 的 资源 的 信息 。 


6.61 XM 


NIST TAC RTE 挑战 赛 在 其 官网 发 布 数据 集 以 及 参加 RTE 系统 的 说 明 ， 而 许多 
RTE 研究 者 均 参 与 这 项 挑战 赛 9S 。 你 可 以 在 ACL RTE 门户 网 站 9 找到 更 多 有 关 RTE 研 
究 文献 的 链接 。 其 他 与 RTE 相关 的 文献 出 现在 诸如 ACL、EMNLP、COLING 和 AAAI 
等 会 议 上 ，ACL 和 EMNLP 的 论文 也 可 以 在 ACL authology9 上 获得 。 


6.6.2 MIRE 


ACL RTE 门户 也 能 为 一 些 有 用 的 知识 库 提供 链接 加 ， 比 如 规则 集合 ， 我 们 在 6.4 中 


的 案例 分 析 中 涉及 了 其 中 一 些 内 容 。 
ACL RTE 门户 网 站 还 能 提供 一 些 完整 RTE 系统 的 下 载 。 


6. 6.3 自然 语言 处 理 包 
一 些 流行 的 自然 语言 处 理 框架 包括 LingPipe$ 、UIMAS , NLTK® 和 GATEQ , 5 


http://www. nist. gov/tac/. 

http://www. aclweb. org/aclwiki/index. php?title— Textual Entailment, 
http://www. aclweb. org/anthology-new/ . 

http://www. aclweb. org/aclwiki/index. php? title= RTE Knowledge Resources. 
http; //alias-i. com/lingpipe. 

http: //incubator. apache. org/uima/ 。 

http; // www. nltk. org/, 

http: //gate. ac. uk/. 
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然 除 此 之 外 还 有 一 些 其 他 可 为 公众 所 利用 的 NLP 框架。 一 些 NLP 框架 还 能 提供 命名 实 
体 识别 、 共 指 关 系 、 切 分 等 NLP 模块 。 我 们 还 发 现 ， 如 把 NLP 工具 分 配 于 多 台电 脑 ， 
Thrift? 和 XML RPC FE (比如 Apache $9) 都 是 很 有 用 的 资源 。 

许多 研究 小 组 成 功 研发 了 NLP 标注 工具 。 斯 坦 福 大 学 号 提供 了 词性 标注 器 、 语 法 分 
析 器 和 命名 实体 识别 器 ， 以 及 一 些 能 够 简化 某 些 NLP 编程 任务 的 相关 资源 。 认 知 计算 小 
组 (cognitive computation group) 9 提供 了 大 量 的 NLP 工具 程序 ， 包 括 领先 水 平 的 Illinois 
命名 实体 标注 器 (Illinois named entity tagger)、 共 指 消 解 器 、 词 性 标注 器 、 组 块 器 
(chunker) 以 及 语义 角色 标注 器 (semantic role labeler)。 此 外 ， 他 们 还 发 布 了 他 们 的 命名 
实体 相似 度 和 词汇 相似 度 度量 CIllinois- NESim 以 及 Illinois-WNSim)。 他 们 还 提供 了 
Learning-Based Java (LBJ)， 这 是 对 Java 编程 语言 的 一 种 扩展 ， 不 仅 简 化 了 Java 应 用 中 
不 可 和 缺失 的 一 环 机 融和 学 习 方 法 的 开发 与 部 署 ， 而 且 还 包含 了 一 些 有 用 的 NLP 工具， 
比如 句子 和 单词 层级 的 切 分 器 。 许 多 研究 者 使 用 了 由 Michael Collins? , Dan Bikel® 和 
Eugene Charniak 开发 的 语法 分 析 器 。 

上 述 提 及 的 NLP 工具 和 其 他 NLP 工具 还 有 更 多 的 实现 ， 有 更 多 的 文献 在 描述 了 未 发 布 
的 应 用 。 本 章 列 举 的 内 容 只 是 其 中 广 受 欢迎 的 一 小 部 分 ， 作 为 你 开始 深入 探索 的 敲门砖 。 


6.7 总 结 


RTE 任务 为 语义 推理 在 文本 处 理 方面 提供 了 一 个 广泛 适用 、 与 表示 方法 无 关 的 框 
架 ， 使 得 研究 者 能 够 采取 许多 不 同方 法 解决 实际 问题 。 NLP 社区 解决 包括 命名 实体 识 
别 和 消解 在 内 的 其 他 文本 推断 间 题 的 方法 是 处 理 “ 组 件 ” 推 理 任 务 ， 这 些 任务 被 认为 是 
某 个 全 面 而 未 指明 的 推断 过 程 的 一 部 分 。 一 种 流行 的 RTE 研究 方法 就 是 把 RTE 看 成 是 
一 种 融合 众多 组 件 的 框架 ， 这些 组 件 的 组 合 方式 则 填补 了 这个 总 体 过 程 的 空白 ; 正 是 在 
这 种 观念 的 指导 下 ， 我 们 提出 了 本 章 所 阐述 的 RTE 体系 。 

我 们 致力 于 寻找 对 于 多 种 互 不 调和 的 需求 的 应 对 之 策 : 

。 整合 能 力 一 一 对 现 有 NLP 资源 能 够 随意 整合 ， 尽 管 这 些 资源 在 不 同 语言 间 存 在 粒 

H 〈 词 、 和 短语、 谓语 结构 )、 形 式 或 者 实用 性 的 不 一 致 。 

。 灵活 性 一 一 能 够 灵活 适应 开发 者 限制 条 件 ， 比 如 工程 量 和 运行 时 复杂 度 等 。 

。 模块 化 一 一 能 够 以 一 种 模块 化 的 方式 添加 新 的 NLP 分 析 器 和 知识 资源 。 

。 通用 性 一 一 开发 人 员 可 以 使 用 多 种 不 同 的 方法 进行 推断 。 

思考 RTE 难题 的 一 种 自然 的 方式 就 是 对 齐 ， 因 为 这 一 概念 允许 通过 多 重视 角 表 现 富 
化 的 文本 以 及 融合 特定 的 、 成 分 级 的 相似 度 度 量 ， 进 而 实现 知识 资源 模块 化 。 在 系统 层 
次 ， 对 齐 的 概念 能 简单 直接 地 拓展 不 同步 又 以 适应 新 的 资源 。 

我 们 提出 的 框架 根据 发 展 多 种 语言 的 NLP 资源 的 主流 方法 设计 而 成 ， 旨 在 当 拥 有 合 
适 的 资源 时 ， 能 够 开发 任何 语言 的 系统 。 这 个 框架 还 允许 在 表示 的 丰富 性 和 计算 速度 之 间 
做 出 权衡 : 如 果 使 用 浅 层 次 〈 不 够 结构 化 ) 的 知识 库 和 NLP 分 析 器 ， 我 们 将 获得 一 种 更 





http: //incubator. apache. org/thrift/ , 

http: // ws. apache. org/xmlrpc/ 。 

http: //nlp. stanford. edu, 

http: //L2R. cs. uiuc. edu/cogcomp, 

http: // people. csail. mit. edu/mcollins/code. html, 
http://www. cis. upenn. edu/ ~ dbikel/software. html, 
ftp: //ftp. cs. brown. edu/pub/nlparser/. 
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为 简单 的 推理 算法 和 一 种 更 为 迅捷 的 计算 过 程 。 用 户 工 作 时 也 能 够 使 用 NLP 资源 更 少 的 
语言 : 尽管 复杂 推理 可 能 受 限 于 NLP 资源 的 可 获得 性 ， 但 是 在 更 浅显 的 表示 层次 上 开发 
出 RTE 系统 仍然 可 能 。 

在 我 们 对 这 一 领域 有 前 景 的 研究 综述 中 ， 我 们 阐明 了 解决 RTE 难题 不 同方 面 的 不 同 
方法 ， 包 括 表 示 法 、 背 景 知识 资源 应 用 、 对 齐 方法 以 及 推理 技术 。 为 了 使 读者 能 够 把 从 这 
些 内 容 中 获得 的 启发 融入 自己 的 RTE 体系 中 ， 我们 指出 了 每 种 方法 的 执行 是 如 何 与 我 们 


的 框架 相 匹 配 的 。 

RTE 是 一 个 复杂 的 问题 ， 解 决 方法 则 需要 严密 的 计划 和 辛勤 的 付出 。 我 们 的 目标 是 
为 你 提供 一 种 工具 ， 通 过 这 种 工具 ， 你 可 以 用 一 种 模型 迅速 上 手 ， 该 模型 可 以 进行 扩展 ， 
从 而 在 特定 的 子 问 题 上 取得 提升 。 我 们 还 提供 了 相关 研究 和 有 用 资源 的 介绍 。 
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多 语 情 感 与 主观 性 分 析 





Carmen Banea, Rada Mihalcea, Janyce Wiebe 


7.1 ik 


主观 性 (subjectivity) 分 析 和 情感 (sentiment) 分 析 以 自然 语言 中 的 个 人 陈述 ， 例 如 
意见 Copinion), fii (emotion), 、 情 感 (sentiment), iff (evaluation), RA (belief) 
以 及 推测 (speculation). 等 ， 为 主要 研究 目标 。 主 观 性 分 析 对 文本 进行 主观 和 客观 的 分 类 
标注 ， 而 情感 分 析 则 更 进一步 地 将 主观 性 文本 划分 为 正 向 文本 、 负 向 文本 以 及 中 性 文本 。 

到 目前 为 止 ， 大 量 的 文本 处 理应 用 程序 已 经 使 用 自动 情感 和 主观 性 分 析 技 术 ， 包 括 自 
动 的 有 表现 力 的 语音 合成 (text-to-speech synthesis) [1]， 在 网 上 论坛 和 新 闻 中 跟踪 情绪 
时 间 表 [2，3j]， 以 及 对 于 产品 评论 的 情感 挖掘 4] 等 。 在 许多 自然 语言 处 理 任务 中 ， 主 
观 性 分 析 以 及 情感 分 析 已 经 作为 生成 更 有 效 数据 的 第 一 层 过 滤 ， 许 多 研究 工作 ， 如 问答 系 
统 L5]、 对 话 摘要 (conversation summarization) [6] 以 及 文本 语义 分 析 [7, 8] 等 ， 均 
可 从 中 受益 。 

目前 ， 大 多 数 的 情感 分 析 以 及 主观 性 分 析 人 研究 都 是 以 英语 为 研究 目标 的 。 然 而 ， 对 于 
其 他 语言 ， 包 括 旧 证 LY. 10, 11, 12], PX [13, 14]. BB [15] 以 及 罗马 尼 亚 语 
[16, 17] 等 的 研究 也 日 益 引 起 研究 者 的 重视 。 另 外 ， 在 NTCIR-6 [18] 的 “中 日 观点 提 
W EFF, KS SAUD FRAUEN EWA AROS 。 

由 于 互联 网 使 用 者 中 仅 有 29.4% ATER IBS ， 对 于 构建 英语 以 外 的 其 他 语言 的 主 
观 性 和 情感 分 析 的 资源 和 工具 的 需求 日 益 增 大 。 本 章 我 们 将 回顾 多 语言 主观 性 分 析 以 及 情 
感 分 析 的 主要 研究 方向 ， 重 点 关注 资源 以 及 工具 的 发 展 。 我 们 将 特别 介绍 并 综述 了 三 大 类 
方法 : 1) 7.4 节 简要 阐述 了 基于 词语 和 短语 的 标注 方法 ;2) 7.5 节 描 述 句 子 标注 的 方法 ; 
3) 7.6 节 将 对 基于 文本 层次 标注 的 方法 进行 说 明 。 

我 们 将 阐述 多 语言 以 及 路 语言 的 方法 。 对 于 多 语言 的 方法 ， 我 们 回顾 除 英 语 以 外 其 他 
语言 的 相关 工作 ， 在 这 些 工作 中 ， 资 源 和 工具 是 为 了 特定 的 目标 语言 开发 的 。 在 7.3 70 
中 ， 我 们 还 将 简要 介绍 一 些 关 于 这 个 类 别 的 、 基 于 英文 数据 的 主要 研究 方向 ， 同 时 特别 强 
调 那 些 可 用 于 其 他 语言 的 方法 。 而 对 于 跨 语 言 的 方法 ， 我们 描述 几 种 已 经 提出 的 方法 ， 这 
些 方 法 通过 语言 映射 的 方式 来 利用 现 有 的 英文 资源 和 工具 。 
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在 各 种 书面 或 者 口头 的 论述 中 ， 作 者 或 者 演讲 者 的 一 些 思想 或 情感 上 的 陈述 ， 以 及 一 
些 有 关 实 体 引用 的 论述 是 一 种 重要 的 信息 。 例 如 ， 新 闻 通 常 除了 报道 事实 外 还 带 有 感情 倾 


© NTCIR 是 一 系列 由 日 本 学 术 振 兴 会 赞助 的 评测 研习 会 ， 目 标 任务 有 信息 提取 、 文 本 摘要 、 信 息 抽 取 以 及 其 他 
任务 。NTCIR-6、7 和 8 包含 对 汉语 、 英 语 及 上 日语 的 多 语 观 点 分 析 。 
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问 。 社 论 、 评 论 、 博 客 以 及 政治 演讲 传达 着 作者 或 者 演讲 者 的 意见 、 信 仰 以 及 意图 。 一 个 
参加 补习 班 的 学 生 可 能 表达 他 的 理解 或 者 疑虑 。Quirk 等 人 对 此 定义 了 一 个 专用 术语 : 私 
人 状态 (private state)， 用 于 表明 思想 上 或 情感 上 的 状态 [19]。 用 他 们 的 话说 ， 私 人 状 
态 是 一 种 并 非 可 客观 地 观察 或 验证 的 状态 。“ 有 时 会 看 到 一 个 人 断言 上 帝 存在 ， 但 他 未 必 
相信 上 帝 存在 。 信 和 念 在 这 种 意义 上 是 私人 的 ”。 主 观 性 是 表示 私人 状态 的 语言 学 术语 ， 是 
从 文学 理论 中 改编 而 来 [20]。 主 观 性 分 析 是 识别 一 个 私人 状态 什么 时 候 被 表达 出 来 以 及 
该 状态 相关 属性 的 工作 。 这 里 的 属性 主要 包括 谁 表达 了 这 个 私人 状态 、 表 述 的 态度 的 类 
型 、 私 人 状态 的 对 象 是 谁 或 者 表达 了 什么 ， 以 及 私人 状态 的 倾向 性 (例如 其 是 否 是 正 向 的 
或 者 是 负 向 的 ) 等 。 例 如， 考虑 如 下 一 个 甸子: 
The choice of Miers was praised by the Senate's top Democrat, Harry Reid of Nevada. 
( 迈 尔 斯 的 决定 被 来 目 于 内 华 达 州 的 民主 党 领袖 哈 利 .里 德 议 员 表 扬 了 。) 
在 这 个 句子 中 ， 和 短语“ 被 表扬 了 ” (was praised by) 表明 了 该 句 表述 了 一 个 私人 状 
态 。 这 个 私人 状态 ， 根 据 这 个 句子 的 作者 所 说 ， 是 由 里 德 (Reid) 所 表达 的 ， 并 且 它 是 有 
KTR (Miers) 的 选择 ， 他 在 2005 年 10 月 由 布什 《Bush) 总统 提 名 到 最 高 法 院 。 
态度 的 类 型 是 一 种 情感 (评价 、 感 情 或 者 判断 )， 它 的 倾向 性 是 正 向 的 [21j]。 
本 章 主 要 关注 的 是 主观 性 存在 与 否 的 检测 ， 以 及 更 进一步 地 判断 它 的 倾向 性 。 这 些 判 
断 可 以 通过 许多 维度 得 来 。 其 中 之 一 是 上 下 文 。 一 方面 没有 上 上 下文 ， 我们 也 可 能 通过 词 
语 来 判断 文本 的 主观 性 以 及 倾向 性 : “ 爱 ” Clove) 是 一 个 主观 的 、 正 向 的 词语 ， 而 “ 恨 ” 
(hate) 是 一 个 主观 的 、 负 向 的 词语 。 另 一 个 极端 是 ， 我 们 拥有 语言 “完全 ”的 上 下 文 信 
息 ， 如 在 文本 或 对 话 中 使 用 的 语言 。 事 实 上 ， 从 无 上 下 文 到 有 上 下 文 是 一 个 连续 的 状态 ， 
我 们 可 以 在 这 个 连续 的 状态 上 定义 许多 自然 语言 处 理 任务 。 
首先 是 构建 一 个 词语 级 别 的 主观 性 词典 。 这 里 的 词典 是 一 个 包含 了 许多 带 有 主观 性 特 
征 的 关键 词 列 表 。 倾 向 性 信息 常 被 添加 到 这 样 的 词典 当中 。 除 了 “ 爱 A "TRÀ" LAB. A 
有 例如 “杰出 ”(brilliant)、“ 兴 趣 ” (interest) 〈 正 向 倾向 性 ) 以 及 “警告 ”(alarm) (fh 
向 倾向 性 ) 等 。 
我 们 也 可 以 根据 词语 的 主观 性 以 及 倾向 性 对 它们 的 词义 进行 分 类 。 考 虑 以 下 两 个 来 目 
于 WordNet [22] WAX “Interest” WHE: 
。 兴趣 ， 涉 及 一 一 一 种 对 某 人 或 者 某 物 关心 或 好 奇 的 感觉 ， 如 “an interest in music” 
中 的 interest, 
。 利率 一 一 借 钱 的 固定 开销 ， 通 常 是 借款 总 额 的 百分数 ， 如 “how much interest do 
| you pay on your mortgage?" "PHJ interest, 
第 一 个 解释 是 主观 的 ， 带 有 正 向 倾向 性 。 但 是 第 二 个 解释 则 不 是 〈 非 主观 的 解释 被 称 
作 是 客观 解释 ) 一 一 它 并 没有 涉及 私人 状态 。 例 如 ， 再 考虑 名 词 “difference” 的 意思 : 
。 不 相同 一 种 不 相似 的 性 质 ， 如 “there are many differences between jazz and 
rock” 中 的 difference。 
。 偏差、 偏离、 差异 (一 种 偏离 于 标准 的 差异 ), 与 “the deviation from the mean” 
中 的 deviation 词义 相同 。 
争议 、 不 同 看 法 、 冲 突 (对 一 些 重要 事情 的 不 同 看 法 以 及 争议 )， 与 “he had a dis- 
pute with his wife” 中 的 “dispute” 词 义 相 同 。 
差别 (一 种 重要 的 变化 )， 如 “his support made a real difference” 中 的 difference, 
剩余 、 差 (减法 后 剩余 的 数 )。 
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第 一 个 、 第 二 个 以 及 第 五 个 定义 是 客观 的 ， 而 其 他 几 个 定义 则 是 主观 的 。 有 趣 的 是 ， 
第 三 个 解释 是 带 有 负面 倾向 性 的 〈 表 明 两 个 人 之 间 发 生 冲 突 )， 然 而 第 四 个 解释 却 是 带 有 
正面 倾向 性 的 。 

词 和 词义 级 别 的 主观 性 词典 是 非常 重要 的 ， 因 为 对 上 下 文 主观 性 分 析 (contextual 
subjectivity analysis) [23 ] 一 一 从 一 个 具体 的 文本 或 者 对 话 中 识别 并 提取 私人 陈述 来 说 ， 
它们 是 非常 有 用 的 资源 。 我 们 可 以 从 多 个 不 同 的 层面 来 判断 文本 的 主观 性 以 及 倾向 性 。 在 
文档 层面 ， 我 们 可 以 考虑 文本 是 否 具 有 观点 倾向 ， 如 果 是 的 话 ， 那 么 判断 它 主要 是 正 向 的 
还 是 负 向 的 。 我 们 可 以 进行 更 为 细致 的 分 析 ， 并 判断 句子 是 否 表达 了 主观 性 。 例 如 ， 考 虑 
以 下 来 自 于 Wilson [23] 的 例子 。 第 一 个 句子 是 主观 的 〈 具 有 正 向 倾向 性 )， 而 第 二 个 名 
子 则 是 客观 的 ， 因 为 它 并 不 带 有 任何 主观 性 的 描述 ; 

* He spins a riveting plot which grabs and holds the reader's interest. 

* The notes do not pay interest. 

更 进一步 ， 可 以 对 每 个 表达 进行 判断 ， 例 如 ， 第 一 个 句子 中 的 “spins”、 “riveting” 
和 “interest” 可 能 被 判断 为 主观 性 的 表达 。 一 个 更 有 意思 的 例子 如 下 ,， “Cheers to Timo- 
thy Whitfield for the wonderfully horrid visuals”。 虽 然 在 一 个 词 级 别 的 主观 性 词典 中 ， 
“horrid” 应 当 被 当做 一 个 负 向 倾 回 性 词 ， 但 是 ， 在 这 个 上 下 文中 ， 它 具有 正 向 倾向 性 。 
“wonderfully horrid” 表 达 了 一 种 对 于 “visuals” 的 正和 癌 情 感 。 (相似 地 ，“Cheers” 表达 
了 对 于 Timothy Whitfield 的 正 向 情感 ) 。 


7.3 英语 中 的 情感 及 主观 性 分 析 


在 描述 现 有 多 语言 情感 及 主观 性 分 析 的 工作 之 前 ， 我 们 将 简要 地 概述 英语 研究 工作 的 
主线 ， 同 时 介绍 一 些 在 英语 分 析 中 最 常用 的 资源 。 通 过 跨 语言 映射 或 者 单 语 (monolin- 
gual) 与 多 语 (multilingual) KJ ží (bootstrapping) 方法 ， 上 述 的 一 部 分 资源 和 工具 已 
成 为 建立 其 他 语言 资源 的 基石 。 正 如 即将 详细 描述 的 那样 ， 在 跨 语言 映射 方法 中 ， 标注 好 
的 资源 可 以 通过 平行 语料库 映射 到 另外 一 种 语言 ， 以 生成 面向 该 语言 的 资源 。 在 多 语言 擎 
衍 方法 中 ， 除 了 通过 跨 语 言 映射 所 获得 的 标注 数据 之 外 ， 源 语言 以 及 目标 语言 的 单 语 语 料 
库 也 可 以 通过 例如 协同 训练 的 苞 衍 方法 一 起 使 用 ， 以 改进 方法 的 效果 。 


7.3.1 WE 


一 个 最 经 常 使 用 的 词典 是 OpinionFinder 系统 [24] 中 提供 的 主观 性 以 及 情感 词典 。 该 
词典 包含 人 工 标注 的 资源 ， 以 从 语料库 中 学 习 的 条 目 作 为 扩展 ， 共 包含 有 6856 个 不 同 的 条 
H, Hp 990 个 是 多 词 表 达 。 词 典 中 ， 每 个 条 目 都 被 标注 了 词性 以 及 可 信和 度 : 最 经 常 出 现在 
主观 性 文本 中 的 词语 有 较 强 的 主观 性 可 靠 性 ， 而 那些 较 少 出 现 ， 但 出 现 次 数 仍 然 高 于 “ 偶 
然 ” 的 词语 则 被 标注 为 较 弱 的 主观 性 可 靠 性 。 此 外 ， 每 个 条 目 还 被 标注 了 极 性 ， 表 明 与 之 相 
符 的 词语 或 者 短语 是 正 向 的 、 负 向 的 还 是 中 性 的 。 例 如 ， 以 下 一 个 条 目 来 目 于 OpinionFinder 
词典 ， type= strongsubj, wordl =agree, posl=verb, mpqapolarity = weakpos， 这 表明 词语 
agree 作为 动词 来 使 用 的 时 候 带 有 很 强 的 主观 性 ， 并 且 它 带 有 弱 正 向 倾 癌 性 。 

另 一 个 经 常用 于 极 性 分 析 的 词典 是 General Inquirer 所 提供 的 词典 [25j。 该 词典 包含 
10 000 个 词 ， 并 将 这 些 词 分 为 180 个 类 别 ， 这 些 类 别 信息 广泛 用 于 内 容 分 析 。 词 典 包含 二 
义 类 别 “〈 例 如 animate, human), ghs) (Pld negatives, becoming verbs), AWH fi] 
类 别 (例如 casual, knowing. perception) 以 及 其 他 。 在 General Inquirer 中 ， 最 大 的 两 
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PRIN valence 类 ， 它 是 一 个 包括 1915 个 正 向 词 和 2291 个 负 向 词 的 词典 。 

SentiWordNet [26] 是 一 个 基于 WordNet 的 资源 ， 主 要 用 于 观点 挖掘 。 它 为 Word- 
Net 中 的 每 一 个 同义词 集 分 配 了 一 个 量化 的 三 元 组 〈 正 向 、 负 向 以 及 客观 )， 表 明 同 义 词 
集中 的 词语 在 这 三 个 属性 上 的 强度 。SentiWordNet 的 标注 是 从 一 系列 人 工 标注 的 同义词 
集中 自动 生成 的 。 如 今 ，SentiWordNet 中 包含 了 自动 标注 的 WordNet 的 所 有 同义词 集 ， 
总 和 超过 了 100 000 个 词语 。 


7.3.2 语料库 


标注 了 主观 性 以 及 情感 的 语料库 不 仅 用 于 训练 情感 自动 分 类 器 ， 它 们 也 可 以 用 于 观点 
挖掘 词典 的 抽取 。 人 例如， 在 上 述 OpinionFinder 词典 中 ， 大 量 的 条 目 都 是 从 一 个 大 规模 标 
注 观 点 的 语料库 中 挖掘 出 来 的 。 

MPQA 语料库 [27] 是 作为 2002 年 “多 角度 问答 ” (Multi-Perspective Question An- 
swering, MPQA) 研讨 会 任务 的 其 中 一 部 分 收集 并 标注 而 来 。 它 包括 535 条 来 自 于 各 种 
新 闻 资 源 的 英语 新 闻 文 章 ， 文 中 标注 了 意见 以 及 其 他 的 私人 状态 (信仰 、 情 绪 、 情 感 、 推 
测 等 )， 该 语料库 最 早 仅 在 从 句 和 短语 级 别 上 进行 标注 ， 但 是 与 数据 集 有 关 的 句子 级 别 的 
信息 可 以 通过 简单 启发 式 方法 获得 [24]. 

男 一 个 关于 情感 文本 的 人 工 标 注 的 语料库 是 在 近期 的 SEMEVAL 任务 [28] 中 创建 
并 使 用 的 。 它 是 一 个 新 闻 标 题 集 ， 共 包含 1000 条 用 于 测试 的 标题 以 及 200 条 用 于 开发 的 
标题 ， 每 一 条 标题 都 被 标注 了 6 种 Eckman 情感 Ea., RE, XR. XR. dE. D 
H) UREN Ae HE CEM BA Am). 

另外 的 两 个 数据 集 均 为 电影 评论 领域 。 一 个 是 包含 1000 条 正 向 评论 和 1000 2& f& [8] TE 
论 的 极 性 数据 集 ， 而 另 一 个 是 包含 5000 个 主观 句子 和 5000 个 客观 句子 的 主观 性 数据 集 。 
这 两 个 数据 集 都 是 由 Pang 和 Lee 所 创建 的 [29]， 并 且 已 经 被 用 于 训练 观点 挖掘 的 分 类 
右 。 这 些 领 域 相关 的 数据 集 有 助 于 提高 给 定 领域 数据 分 类 带 的 性 能 。 


7.3.3 IR 


目前 ， 研 究 者 们 已 经 提出 了 大 量 的 方法 用 于 英语 情感 分 析 及 主观 性 分 析 。 这 些 方法 大 
致 可 以 分 为 两 类 : 基于 规则 的 系统 ， 依 赖 于 人 工 或 者 半自动 建立 的 词典 ; PL ase I as 
器 ， 通 过 有 标注 的 语料库 训练 而 成 。 

在 基于 规则 的 系统 中 ， 最 常用 的 是 OpinionFinder [24j。 基 于 大 词典 中 词语 或 者 短语 
的 存在 与 否 ， 它 可 以 对 新 文本 自动 地 进行 主观 性 标注 。 简单 地 说 ，OpinionFinder 的 高 精 
确 率 分 类 器 主要 依靠 以 下 三 条 启发 式 规则 来 进行 句子 的 主客 观 标 注 : D 如 果 两 个 或 以 上 
的 强 主 观 性 表述 出 现在 一 个 句子 当中 ， 和 那么 这 个 句子 被 标注 为 主观 。2) 如 果 没 有 强 主观 
表述 出 现在 句子 中 ， 并且 至 多 有 两 个 弱 主观 表述 出 现在 前 句 、 当 前 句 以 及 下 一 个 句子 当 
中 ， 那 么 这 个 句子 被 标注 为 客观 。3) 否则 ， 如 果 前 面 两 条 规则 都 不 适用 ， 则 这 个 句子 被 
标注 为 未 知 。 这 个 分 类 器 利用 主观 性 词典 提供 的 信息 以 及 上 述 规则 来 从 大 量 未 标记 的 文本 
中 获得 主客 观 数据 。 之 后 ， 这 些 数据 用 于 自动 抽取 出 一 个 模式 集合 ， 这 些 集合 将 以 迭代 的 
方式 用 于 识别 一 个 更 大 集合 中 的 主客 观 句 子 。 

除了 这 个 高 精确 率 分 类 器 外 ，OpinionFinder 还 包括 一 个 高 覆盖 率 分 类 器 。 高 精确 率 分 类 
器 被 用 来 自动 生成 有 标注 的 英语 数据 集 ， 然 后 数据 集 用 于 训练 一 个 高 覆盖 率 主观 性 分 类 颖 。 

在 MPQA 语料库 中 进行 评测 ， 上 述 高 精度 分 类 器 拥有 86. 7% 的 准确 率 和 32, 6 76 B A 
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另 一 个 值得 一 提 的 无 监督 系统 是 由 Turney [30] 提出 的 ， 该 工作 以 Hatzivassiloglou 和 
McKeown [31] 的 早期 工作 为 基础 ， 目 前 该 系统 基于 自动 标注 的 词 和 短语 进行 训练 。 例 如 ， 
以 参考 词 excellent 和 poor 7F 4$, Turney 依据 当前 词 或 短语 的 点 互信 息 (Pointwise Mutual In- 
formation, PMD 与 正 向 参考 (excellent) PMI K fa] 4 (poor) PMI 之 比 S ,来 区 分 该 
词 或 短语 的 极 性 。 根 据 这 种 方法 得 到 的 极 性 评分 用 于 自动 标注 产品 、 公 司 或 者 电影 评价 的 
极 性 。 注 意 到 这 个 系统 是 完全 无 监督 的 ， 因 此 对 于 其 他 语言 的 应 用 来 说 特别 有 吸引 力 。 

最 后 ， 当 存在 可 用 的 标注 语 料 的 时 候 ， 使 用 机 器 学 习 方 法 来 建立 主观 性 分 类 器 及 情感 
分 类 器 是 很 自然 的 。 例 如 ，Wiebe、Bruce 和 O'Hara [32] 利用 一 个 由 人 工 标 注 主 观 性 信 
息 的 数据 集 来 训练 一 个 机 器 学 习 分 类 器 ， 这 使 得 结果 相 较 于 基准 系统 有 了 显著 的 提升 。 类 
似 地 ， 从 半自动 建立 的 数据 集 出 发 ，Pang 和 Lee [29] 创建 了 句子 层次 的 主观 性 标注 分 类 
需 以 及 文档 层次 的 情感 标注 分 类 器 。 当 存在 标注 数据 时 ， 上 述 的 机 器 学 习 分 类 器 也 可 以 很 
好 地 用 于 其 他 语言 。 


7.4 词 级 和 短语 级 标注 


对 于 情感 分 析 以 及 主观 性 分 析 工 具 和 资源 的 开发 往往 从 词典 的 构建 开始 ， 词 典 中 包含 
标注 过 情感 或 主观 性 的 词 或 短语 。 通 过 考虑 文本 是 否 包含 词典 中 的 条 目 ， 这 类 词典 已 成 功 
地 应 用 于 基于 规则 的 自动 观点 标注 分 类 器 的 构建 中 ， 

到 目前 为 止 ， 主 要 存在 三 类 词 级 和 短语 级 标注 的 方法 : 1) 人 工 标注 ， 这 涉及 人 对 选 
定 词 和 短语 的 判断 ; 2〉 基 于 如 字典 等 知识 源 的 自动 标注 方法 ; 30 基于 语料库 导出 的 信息 
的 目 动 标注 。 


7.4.1 基于 字典 的 方法 


建立 面向 新 语言 的 观点 词典 的 一 种 最 简单 的 方法 是 使 用 双语 字典 对 已 经 存在 的 源 语言 
词典 进行 翻译 。Mihalcea、Banea 和 Wiebe [16] 通过 使 用 一 个 英语 -罗马 尼 亚 语 的 双语 字 
Ji. RE THA T OpinionFinder (F 7.3.1 HHA) 的 英语 主观 性 词典 ， 生 成 了 一 部 罗 
马 尼 亚 语 的 主观 性 词典 。 

在 翻译 过 程 中 会 遇 到 许多 挑战 。 首 先 ， 英 语 主观 性 词典 中 有 屈折 变化 词 。 但 为 了 能 够 
利用 双语 词典 对 条 目 进行 翻译 ， 词 形 必须 还 原 。 然 而 ， 词 形 还原 可 能 会 导致 词 主观 性 的 丢 
失 。 例 如 ，memories 的 原形 是 memory, 一 旦 翻译 成 罗马 尼 亚 语 (翻译 为 memorie). € 
的 主要 意思 便 是 客观 的 ， 表 示 记 录 信 息 的 能 力 。 

其 次 ,无论 是 词典 还 是 双语 字典 都 无 法 提供 单个 条 目的 义 项 信息 ， 因 此 翻译 只 能 选择 目 
标语 言 中 最 可 能 的 义 项 。 幸 运 的 是 ， 一些 双语 字典 将 翻译 使 用 的 频率 以 反 序列 出 ， 这 是 一 个 
启发 式 信息 ， 可 用 于 部 分 地 解决 这 个 问题 。 而 且 ， 词 典 中 有 时 会 包含 几 个 相同 的 条 目 ， 但 它 
们 表达 了 不 同 的 词类 。 例 如 ，grudge 有 两 个 独立 的 条 目 ， 分 别 表 示 名 词 和 动词 两 个 角色 。 

使 用 这 种 直接 翻译 过 程 ，Mihalcea 等 人 得 到 了 一 个 包含 4983 个 条 目的 罗马 尼 亚 语 主 
观 性 词典 。 表 7-1 列 出 了 该 词典 中 的 一 些 样 例 条 目 ， 以 及 它们 原本 的 英语 形式 。 这 个 表 还 


列 出 了 情感 的 可 靠 性 ( 强 、 弱 ) 以 及 词性 一 一 由 英语 主观 性 词典 提供 的 属性 。 


& ij^ i] w 和 we 的 PMI 定义 为 这 两 个 词 共同 出 现 的 概率 除 以 每 个 词 单 独 出 现 的 概率 : PMI Cw , w ) = 
P Cun sw) 
Pus ) PCwe ) * 


$p^* ZBRERSZMBRDH 193 


表 7-1 罗马 尼 亚 主 观 词典 中 条 目的 样 例 


罗马 尼 亚 语 英语 属性 ^ ug is 英语 属性 
infrumuseta beautifying 强 , 动词 plin de regret full of regrets SR. 形容 词 
notabil notable 55 * 形 容 词 sclav slaves 858 . 2 ig] 


为 了 评估 该 词典 的 质量 ， 两 个 母语 为 罗马 尼 亚 语 的 标注 者 分 别 标注 了 150 个 随机 挑选 
的 条 目的 主观 性 。 每 一 个 标注 者 独立 地 阅读 了 大 约 100 个 从 网 页 当中 抽取 出 来 的 例子 ， 其 
中 包括 大 量 来 自 于 新 闻 的 资源 。 词 语 的 主观 性 最 终 由 它 最 常 出 现 位 置 的 上 下 文 决定 ， 并 且 
考虑 了 它 在 网 页 当中 最 经 常 出 现 的 意思 。 在 经 过 讨论 解决 分 歧 以 后 ， 最 终 的 翻译 集 里 包含 
123 个 正确 的 翻译 条 目 ， 其 中 包含 49. 6% (61 个 ) 的 主观 性 条 目 ， 然 而 有 23.6% (294) 
的 条 目 主 要 用 在 客观 陈述 中 (其 他 的 26. 8% 是 混合 的 )。 

Mihalcea 等 人 [16]」 的 研究 表明 ， 从 翻译 中 衍生 的 罗马 尼 亚 语 的 主观 信息 的 可 靠 性 比 
原来 英文 集合 中 信息 的 可 靠 性 要 弱 。 在 许多 情况 下 ， 主 观 性 信息 在 翻译 的 过 程 当 中 丢失 
了 ， 这 种 现象 发 生 的 主要 原因 是 词 在 源 语 言 、 目 标语 言 或 两 者 中 具有 歧义 。 例 如 ， 词 
"fragile" 准确 地 翻译 成 罗马 尼 亚 语 是 “fragil”， 这 个 词 通常 用 于 指 代 那些 易 碎 品 ， 而 这 样 
的 翻译 就 使 得 这 个 词 丢失 了 关于 “ 易 损 坏 ” 的 主观 性 信息 。 而 有 的 词 一 旦 被 翻译 ， 就 将 完 
全 失去 它 的 主观 性 。 例 如 ,“one-sided” 翻 译 成 罗马 尼 亚 语 是 “cu o singura latură”, E 
是 “只 有 一 面 ”( 用 于 描述 物体 )。 

Kim 和 Hovy [15」 从 英文 词典 出 发 ， 使 用 类 似 的 翻译 方法 创建 了 一 个 德语 词典 。 该 
词典 主要 关注 极 性 而 非 主观 性 。 他 们 使 用 的 英文 极 性 词典 是 一 个 通过 使 用 少量 种 子 词 以 及 
WordNet 结构 [22] 而 半自动 生成 的 词典 。 简 而 言 之 ， 对 于 给 定 的 种 子 词 ， 可 以 从 Word- 
Net 中 抽取 它 的 同义词 集 和 同义词 ， 然 后 计算 该 词 属于 三 类 中 某 一 类 的 概率 ， 概 率 是 根据 
特定 类 中 的 种 子 在 该 词语 的 扩展 范围 内 出 现 的 数量 以 及 频率 来 计算 的 。 因 而 ， 这 种 计算 方 
式 代 表 了 词 与 种 子 的 相近 程度 。 使 用 该 方法 ，Kim 和 Hovy 生成 了 一 个 包含 约 1600 个 动 
词 以 及 3600 个 形容 词 的 英文 词典 ， 并 将 这 些 词语 根据 它们 的 极 性 分 类 为 正 向 词 和 负 向 词 。 

该 词典 之 后 被 翻译 为 德 文 ， 使 用 了 一 个 自动 生成 的 翻译 字典 。 翻 译 字典 是 根据 词 对 齐 
从 欧洲 议会 语料库 中 得 到 的 [33]。 为 了 评价 该 德语 极 性 词典 的 质量 ,词典 中 的 条 目 在 基 
于 规则 的 系统 中 使 用 ， 该 系统 随后 用 于 标注 70 封 德语 邮件 的 极 性 。 整 体 上 ， 该 系统 在 标 
注 正 向 极 性 上 能 取得 了 60% 的 下 值 ， 在 标注 负 向 极 性 上 的 下 值 为 50%。 

Banea, Mihalcea 和 Wiebe [34] 提出 了 另 一 种 建立 主观 性 词典 的 方法 : 根据 一 些 人 
工 选择 的 种 子 ， 使 用 苞 衍 方法 来 建立 主观 性 词典 。 在 每 一 次 迭代 过 程 中 ， 方 法 根据 在 线 词 
典 中 得 到 的 相关 词语 来 扩展 种 子 集 合 ， 这 些 相 关 词 语 通过 使 用 一 种 词 相似 度 度 量 来 进行 过 
ve. BRAK EMA 7-1 所 示 。 

上 述 方法 从 一 个 包含 主观 性 词 的 种 子 集合 开始 ， 均 匀 地 从 动词 、 名 词 、 形 容 词 和 副词 
中 进行 采样 ， 以 条 目 是否 出 现在 词典 中 为 基础 ， 将 新 发 现 的 相关 词 添 加 到 词典 中 。 对 于 每 
一 个 种 子 词 ， 收 集 所 有 出 现在 它 定义 中 的 开放 类 词 。 如 果 种 子 存 在 同义词 和 反义词 ， AA 
这 些 词 也 一 并 收集 。 值 得 注意 的 是 ， 在 这 里 ， 词 的 歧义 并 不 是 一 个 问题 ， 因 为 对 于 每 个 候 
选 词 ， 方 法 都 将 扩展 它 所 有 可 能 的 意思 。 随 后 ， 使 用 从 目标 语言 语料库 中 训练 的 潜在 语义 
分 析 系 统 来 计算 词 与 种 子 词 的 相似 度 ， 根 据 这 个 相似 度 度量 ， 不 正确 的 词义 会 被 过 滤 掉 。 

在 罗马 尼 亚 语 实验 中 ， 以 60 个 种 子 词 为 基础 ，Banea 等 人 创建 了 一 个 包含 有 3900 个 
条 目的 主观 性 词典 。 然 后 ， 通 过 将 一 个 基于 规则 的 分 类 器 骨 入 该 词典 中 ， 并 且 对 504 个 人 
工 标注 的 句子 进行 主观 性 分 类 ， 从 而 对 词典 的 质量 进行 了 评价 。 上 述 分 类 器 的 最 终 FA 
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61. 7%， 显 著 高 于 基于 默认 分 配 多 数 类 的 、F 值 为 54% 的 简单 基准 系统 。 

Pitel 和 Grefenstette [35」 使 用 了 一 个 相似 的 擎 衍 方法 来 建立 一 个 法 语 情 感 词 典 。 他 
们 将 词 分 为 了 44 个 情感 类 (例如 道德 (morality)、 爱 (love)、 犯 罪 (crime), REA 
(Cinsecurity)) ， 每 个 类 都 与 一 个 正 向 倾向 或 负 向 倾向 相 联 系 。 以 一 些 种 子 词 (每 个 类 中 有 
2 一 4 个 种 子 词 ) 为 起 始 ， 他 们 使 用 了 同义词 扩张 方法 来 自动 添加 每 一 类 的 新 候选 词 。 然 
后 ， 通 过 一 种 相似 度 计算 的 方法 来 对 候选 词语 进行 过 滤 ， 这 里 的 相似 度 是 通过 从 种 子 数 据 
训练 得 来 的 潜在 语义 分 析 及 机 器 学 习 系 统计 算 的 。 使 用 这 种 方法 ，Pitel 和 Grefenstette 得 
到 了 一 个 包含 3500 个 词 的 法 语 情 感 词典 ， 并 通过 对 比 包 含 人 工 标 注 项 的 标准 数据 集 来 评 
估 该 词典 。 结 果 表 明 ， 随 着 训练 词典 中 可 用 训练 样本 的 增多 ， 对 于 给 定 的 类 ， 分 类 的 F 值 
从 12% 提 高 到 了 17% ， 并 最 高 达到 了 27%. 


7.4.2 基于 语料库 的 方法 


除了 词典 以 外 ， 研究 者 也 发 现 文本 语料库 可 用 于 挖掘 词 和 短语 的 主观 性 和 极 性 信息 。 
迄今 为 止 ， 大 多 数 基 于 语料库 的 研究 方法 都 延续 Turney 的 工作 [30]( 见 7.3.3 节 ),， 他 
提出 了 一 种 基于 正面 或 者 负面 种 子 (比如 “excellent” 和 “poor”) 的 PMI 相关 度 的 词 的 
极 性 度量 方法 。 

Kaji 和 Kitsuregawa [36] 提出 了 一 种 通过 测量 自动 收集 来 自 网 页 的 正面 和 负面 数据 
的 关联 强度 来 构建 日 语 情感 词典 的 方法 。 首 先 ， 通 过 使 用 HTML 网 页 布局 的 结构 化 信息 
(例如 ， 列 举 能 明确 地 指示 评论 中 评价 部 分 存在 的 标记 表 ， 如 优点 、 缺 点 、 减 、 加 等 )， 以 
及 日 本 独特 的 语言 结构 (例如 ， 助 词 被 用 作 主 题 标记 )， 该 方法 自动 从 网 络 中 挖掘 出 一 个 
具有 正面 和 负面 陈述 的 语料库 。 以 10 dL HTML 文档 为 起 点 ， 上 述 方法 收集 了 大 约 
500 000 个 极 性 句子 ， 其 中 有 220 000 个 是 正面 的 ， 其 余 的 是 负面 的 。 由 两 个 人 人 工 验 证 
500 个 句子 ， 结 果 表 明 ， 该 方法 的 平均 精确 率 为 92% ， 这 表明 通过 这 种 方法 可 以 构造 具有 
相当 质量 的 语料库 。 

接 下 来 ，Kaji 和 Kitsuregawa 使 用 该 语 料 自动 获取 一 个 包含 极 性 短语 的 集合 。 开 始 
时 ， 他 们 把 所 有 的 形容 词 和 形容 词 短语 作为 候选 ， 测 量 了 这 些 候选 与 正面 和 负面 数据 之 间 
的 卡 方 和 PMI 值 ， 然 后 从 中 选择 超过 一 定 阔 值 的 词 和 短语 。 实 验 表 明 ，PMI 比 卡 方 的 效 
果 好 。 基 于 PMI 的 词 或 短语 的 极 性 值 定 义 为 : 


RTE SEREK EMENI 195 


PVpm(W) = PMI(W , pos) — PMICW ,neg) 
其 中 
PCW , pos) 
PCOW) P(Cpos) 
pos 和 neg 表示 从 网 络 中 目 动 收集 的 正面 和 负面 的 句子 。 

通过 使 用 一 个 含有 405 个 形容 词 短 语 的 数据 集 ， 其 中 包括 158 个 正面 短语 、150 个 负面 
短语 和 97 个 中 性 短语 ，Kaji 和 Kitsuregawa 构建 了 一 个 词典 。 条 目的 数量 为 8166~9670 条 ， 
主要 取决 于 选取 候选 时 所 用 的 国 值 。 当 浆 值 为 0 时 ， 正 面 短语 的 精确 率 为 76.426 (召回 率 
92. 4 办 )， 当 阔 值 上 升 到 3.0 时 ， 精 确 率 上 升 到 92.0% CAER 65.8%)。 在 同样 的 阔 值 下 ， 
负面 短语 的 精确 率 从 68.5% (召回 率 84.0%) 284629 87.9% CH Il 62.7%). 

男 一 个 基于 语料库 的 、 构 建 日 语 极 性 词典 的 方法 是 由 Kanayama 和 Nasukawa [12 ] 
提出 的 ， 方 法 主要 专注 于 特定 领域 的 命题 。 这 些 研 究 人 员 提 出 了 一 种 新 方法 ， 通 过 从 建立 
的 领域 无 关 的 词典 中 上 自动 获取 给 定 领域 的 极 性 原子 ， 该 方法 能 够 进行 无 监督 的 领域 相关 的 
情感 分 析 。 在 他 们 的 工作 中 ， 极 性 原子 定义 为 “能 够 被 人 们 所 理解 的 、 并 可 明确 子 句 极 性 
的 最 小 语法 结构 ”， 通 常 代表 一 个 由 倾 铝 性 和 一 个 动词 或 者 形容 词 以 及 它们 的 可 选 论 元 组 
成 的 元 组 。 系 统 根据 名 内 和 人 句 间 的 共 现 来 确定 极 性 转换 ， 并 以 擎 衍 方法 目 动 产生 了 一 个 领 
域 相关 的 极 性 词典 。 

首先 ， 使 用 语法 分 析 器 的 输出 来 确定 候选 命题 。 接 下 来 ， 分 两 个 阶段 进行 情感 分 析 。 
以 基于 英语 情感 词典 的 已 有 极 性 原子 词典 为 起 始 ， 该 方法 从 早先 抽取 的 命题 中 发 现 共 现 条 
目 。 这 些 命题 被 划分 为 正面 或 负面 ， 依 据 是 命题 中 包含 的 原子 的 类 别 标 签 ， 如 果 遇 到 否定 
则 使 用 相反 的 标签 。 下 一 步 涉及 将 初始 的 情感 标识 扩展 到 未 标记 的 命题 上 。 为 此 ， 方法 考 
虑 了 上 下 文 的 共 现 ， 这 假定 在 一 个 给 定 的 上 下 文中 极 性 并 不 会 发 生 改 变 ， 除非 遇 到 转折 连 
ij. 最后， 对 于 每 个 新 极 性 原子 ， 根 据 它 在 正面 和 负面 上 下 文中 分 别 出 现 的 总 数目 来 计算 
来 它 的 置信 和 度 。 

上 述 方法 对 从 4 个 领域 中 抽取 的 日 文 产 品评 论 进行 评价 ， 这 4 个 领域 分 别 为 : 数码 相 
机 、 电 影 、 手 机 和 汽车 。 每 个 语料库 中 评论 的 数量 从 155 130 (手机 〉 到 263 934 (数码 相 
BL) 不 等 。 以 这 些 数据 集合 为 起 点 ， 该 方法 可 以 从 每 个 领域 中 抽取 出 200 一 700 个 极 性 原 
子 。 经 过 人 工 评价 ， 这 些 原 子 的 精确 率 从 54% (手机 语 料 ) ~75% (电影 语 料 ) 不 等 。 

Kanayama 和 Nasukawa 的 方法 在 某 种 程度 上 与 由 Kobayashi 等 人 先前 提出 的 方法 类 
似 。 后 者 从 在 网 络 上 挖掘 的 日 文 产品 评论 上 抽取 观点 三 元 组 [9j。 人 情感 三 元 组 由 以 下 域 组 
成 : 产品 (product)、 属 性 (attribute) 和 值 (value)。 该 过 程 涉 及 由 两 步 组 成 的 擎 衍 过 
程 。 第 一 步 是 基于 一 个 共 现 模式 集 生成 候选 ， 这 些 集合 应 用 于 一 组 网 络 评论 。 此 外 还 依赖 
于 三 个 字典 (主语 、 属 性 以 及 值 的 字典 )， 这 三 个 字典 在 每 次 敬 衍 迭代 结束 时 均 会 更 新 。 
一 旦 产生 了 候选 的 排序 列表 ， 采 用 人 工 判 断 的 方式 来 对 排序 最 高 的 候选 词 进 行 标注 。 这 里 
人 工 参 与 的 步骤 涉及 识别 属性 和 值 ， 以 及 使 用 新 抽取 的 实体 来 更 新 对 应 的 字典 。 

对 于 实验 ，Kobayashi 等 人 使 用 了 两 个 数据 集 ， 分 别 包括 15 000 条 汽车 评论 和 10 000 
条 游戏 评论 。 在 苞 衍 方法 开始 时 ， 他 们 使 用 一 个 包含 389 个 车 名 和 660 个 计算 机 游戏 名 的 
主语 词典 、 一 个 包含 7 个 属性 描述 的 初始 通用 属性 列表 (例如 ， MA (cost)、 价 格 
(price), PERE (performance)? ， 以 及 一 个 包含 247 个 条 目的 值 列表 (例如 ， 好 Cgood), 
漂亮 (beautiful). 、 高 (high))。 每 一 个 抽取 的 模式 都 根据 抽取 的 表达 式 的 频率 及 其 可 徘 程 
度 进 行 评 分 。 对 于 评测 ， 标 注 人 员 标 注 了 105 条 汽车 评论 和 280 条 计算 机 游戏 评论 ， 并 识 


P(W neg) 


PMI(W , pos) = logs P(W)P(neg) 


PMI(W ,neg) = loge 
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别 数据 的 属性 以 及 相应 的 属性 值 。 整 体 上 ， 使 用 这 个 半自动 系统 ，Kobayashi 等 人 发 现 构 
建 观点 三 元 组 词典 的 速度 要 比 纯 人 工 创建 的 方式 快 8 倍 。 此 外 ， 与 人 工 抽取 的 表达 相 比 ， 
该 半自动 系统 能 够 实现 35% 一 45%% 的 覆盖 率 ， 这 是 非常 高 的 。 

H x 4g A mg um IR] TEE SÉ Suzuki, Takamura, Okumura [10]. Takamura, Inui 
和 Okumura [11] 工作 的 研究 目标 。 两 者 都 使 用 了 从 标注 数据 上 训练 的 期 望 最 大 化 模型 。 
Takamura 等 人 考虑 寻找 像 “ 轻 笔记 本 电脑 ”之 类 短语 极 性 的 任务 ， 这 类 短语 不 能 直接 根 
据 单独 词 的 极 性 来 获得 整个 短语 的 极 性 〈 因 为 在 这 种 情况 下 , “ 轻 ” 和 “笔记 本 电脑 ” 均 
为 中 性 ) 。 在 一 个 从 日 语 报纸 上 抽取 的 包含 12 000 条 日 文 形 容 词 -= 名 词 短语 的 数据 集 上 ， 他 
们 发 现 基 于 三 角形 和 TU 形 图 依赖 的 模型 可 以 达到 约 8126 B5 VE f 2 

Suzuki 等 人 使 用 了 与 Kobayashi 等 人 [9] 类 似 的 方法 ， 但 目标 为 评价 性 表达 (evaluative 
expression). 。 他 们 使 用 期 望 最 大 化 算法 和 朴素 贝 叶 斯 分 类 器 来 草 衍 一 个 系统 ， 进 而 对 包含 主 
语 、 属 性 和 值 的 评价 性 表达 进行 极 性 标注 。 在 一 个 包含 1061 个 标注 样本 和 34 704 个 未 标注 
样本 的 数据 集 上 ， 他 们 的 方法 获得 了 77 为 的 精确 率 。 而 根据 1061 个 有 标记 样本 中 的 最 大 类 
来 进行 标记 的 基准 系统 的 精确 率 为 47% 。 与 该 基准 系统 相 比 ， 该 结果 有 了 显著 的 提升 。 

最 后 ，Bautn、Vijayarenu 和 Skiena [37] 提出 了 另 一 类 关于 词 和 短语 极 性 分 析 的 工 
作 。Bautin 等 人 工作 的 目标 是 衡量 目标 语言 文本 中 给 定 实 体 ( 如 ， 乔 治 ， 布什 、 弗 拉 基 米 
IK e FR) 的 极 性 ， 而 非 获得 新 语言 中 主观 性 或 情感 词典 。 他 们 的 方法 先 将 给 定语 言 的 文 
H (如 新 闻 专 线 、 欧 洲 议会 文档 ) 翻译 为 英语 ， 随 后 根据 实体 和 英语 情感 词典 中 正面 或 负 
面 单词 间 的 关联 度 来 计算 目标 实体 的 极 性 。 

他 们 的 实验 考察 了 9 个 不 同 的 语言 (阿拉 伯 语 、 中 文 、 英 语 、 法 语 、 德 语 、 意 大 利 
iB. 日语 、 韩 语 以 及 西班牙 语 ) 以 及 覆盖 国家 和 城市 名 的 14 个 实体 。 他 们 发 现在 实体 极 
性 和 主观 性 的 衡量 结果 上 ， 不 同 语言 的 差异 很 大 ， 从 非常 弱 的 相关 性 (接近 0) 到 很 强 的 
相关 性 (0. 60 及 更 高 )。 例 如 ， 累 积 不 同 语言 中 所 有 14 个 实体 的 极 性 分 值 ， 日 语 和 中 文 文 
本 中 这 些 实体 提 及 间 分 值 的 相关 度 只 有 0. 08， 而 法 语 和 韩语 文本 收集 到 提 及 分 值 的 相关 度 
却 高 达 0. 63。 


7.5 句子 级 标注 

语料库 标注 一 般 是 必 不 可 少 的 ， 它 要 么 作为 多 种 文字 处 理应 用 的 最 终 目标 〈 例 如 ， 从 
网 页 挖掘 意见 ， 将 评论 分 类 为 正面 和 负面 )， 要 么 作为 构建 自动 主观 性 和 情感 分 类 咒 的 中 
间 步 又 。 目 前 ， 这 方面 的 主要 工作 都 认为 是 句子 级 别 或 者 文档 级 别 的 ， 标 注 的 结果 主要 取 
决 于 最 终 应 用 (或 分 类 器 ) 的 要 求 。 标 注 过 程 通常 使 用 下 列 两 种 方法 : 基于 词典 的 方法 ， 
包括 以 规则 为 基础 的 分 类 器 ， 依 赖 于 用 上 一 节 描 述 的 方法 来 构建 词典 ; 或 者 基于 语料库 的 
方法 ， 需 要 通过 已 有 标注 数据 进行 训练 ， 以 获得 机 器 学 习 分 类 大 。 


7.5.1 基于 字典 


基于 规则 的 分 类 器 ， 如 由 Riloff 和 Wiebein Æ [38」 中 提出 的 分 类 磊 ， 可 与 任何 观点 
词典 相 结合 来 构建 基于 句子 的 分 类 器 。 这 些 分 类 器 主要 根据 文本 中 词典 信息 的 存在 与 否 ， 
相应 地 决定 句子 的 分 类 ， 如 主观 /客观 或 正面 /负面 。 

在 上 一 节 描 述 的 词典 中 ， 有 一 个 用 于 基于 规则 的 分 类 器 中 ， 即 罗马 尼 亚 语 的 主观 性 词 
典 。 它 是 通过 翻译 英语 词典 的 方式 来 构建 的 [16]」( 见 7.4. 1 节 )。 该 分 类 器 依赖 三 个 启发 
式 策略 来 标注 主观 和 客观 句子 : D 如 果 两 个 或 更 多 强 主 观 表达 出 现在 同一 个 句子 中 ， 该 
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句子 则 被 标注 为 主观 ; 20 如 果 句 子 中 没有 出 现 强 主观 表达 ， 并 且 在 之 前 、 当 前 和 之 后 名 
子 中 至 多 出 现 三 个 弱 主观 表达 ， 那 么 该 句子 被 标注 为 客观 ; 3) 否则 ， 如 果 上 述 前 面 两 条 
规则 都 不 符合 ， 该 句子 则 被 标注 为 未 知 。 

为 了 对 分 类 器 的 质量 进行 评价 ， 使 用 了 一 个 具有 标准 主观 性 标注 的 罗马 尼 亚 语 语 料 
库 ， 该 语料库 包括 504 个 句子 ， 这 些 句 子 来 自 于 罗马 尼 亚 语 -英语 平行 语料库 ， 并 且 根 据 
[27] 中 的 标注 方案 来 进行 标注 。 该 分 类 器 整体 准确 率 为 62%， 召 回 率 为 39%; 主观 性 标 
注 的 准确 率 为 80%， 召 回 率 为 21%. 

男 一 个 用 于 基于 规则 方法 的 主观 性 词典 是 Banea EA C34] 提供 的 ( 见 7.4.1 节 )。 
他 们 通过 多 次 的 苞 衍 迭代 之 后 获得 了 一 个 包含 3900 个 条 目的 罗马 尼 亚 语词 典 ，Banea 等 人 
根据 它 构建 了 一 个 基于 规则 的 分 类 器 ， 通 过 对 上 述 有 504 句 人 工 标注 的 罗马 尼 亚 语 数 据 集 
进行 评估 ， 该 分 类 需 的 整体 准确 率 和 召回 率 为 62%。 这 比 从 基于 翻译 的 词典 中 获得 的 结果 
要 好 很 多 ， 表 明 特 定 的 语言 信息 对 主观 性 分 析 的 重要 性 。 

除了 罗马 尼 亚 语 ， 词 典 方法 也 用 于 日 语句 子 的 极 性 分 类 [39]. Kanayama 等 人 使 用 一 种 
基于 深度 句法 分 析 的 机 器 翻译 系统 从 日 语 产品 评论 中 抽取 “情感 单元 ” (sentiment unit), AL 
有 很 高 的 精确 率 。 在 这 里 ， 情 感 单元 被 定义 成 一 个 二 元 组 ， 包含 情感 标签 (正面 或 负面 》 
和 一 个 带 有 论 元 (名词) 的 谓词 (动词 或 形容 词 )。 该 情感 分 析 系 统 使 用 了 基于 转换 的 机 
器 翻译 引擎 的 框架 ， 其 中 ， 产 生 式 规则 和 双语 词典 分 别 被 情感 模式 和 情感 词典 所 代替 。 

该 系统 最 终 不 仅 能 够 挖掘 出 关于 产品 属性 的 正面 或 负面 评论 ， 而 且 也 提供 了 友好 的 用 
户 界面 用 于 浏览 产品 评论 。 使 用 来 自 目标 语言 句法 分 析 器 的 信息 ， 从 日 语 中 导出 的 情感 单 
元 可 以 用 于 句子 极 性 的 分 类 。 系 统 使 用 大 约 4000 个 情感 单元 ， 在 对 200 个 句子 进行 评测 
时 ， 在 以 降低 召回 率 至 44% 为 代价 的 同时 ， 情 感 标注 系统 可 以 达到 89% 的 高 精确 率 。 


7.5.2 基于 语料库 


一 是 拥有 带 有 主观 性 或 极 性 标注 的 句子 级 语料库 后 ， 便 可 以 训练 一 个 分 类 器 来 自动 标 
注 额外 的 句子 。 

这 就 是 Kaji 和 Kitsuregawa 提出 的 方法 [40，36]， 他 们 在 网 络 收集 了 大 量 的 标注 了 
情感 的 句子 构成 语料库 ， 随 后 使 用 这 些 数据 集 来 训练 句子 级 的 分 类 器 。Kaji 和 Kitsure- 
gawa 使 用 了 在 7. 4. 2 章节 中 描述 的 方法 ， 该 方法 依赖 于 HTML 网 页 布局 的 结构 化 信息 
以 及 日 语 的 特有 结构 ， 从 网 络 上 收集 到 了 一 个 约 含 500 000 个 正面 和 负面 句子 的 语 料 
库 。 接 着 ， 他 们 对 标注 的 质量 进行 了 评估 ， 评 估 由 两 个 人 来 完成 。 结 果 表 明 ， 当 在 随机 
抽取 的 500 个 样本 句子 上 进行 度量 时 ， 平 均 准 确 率 可 以 达到 9226, 

Kaji 和 Kitsuregawa 还 使 用 了 上 述 数据 的 一 个 子 集 来 构建 朴素 贝 叶 斯 分 类 器 ， 该 子 集 
包含 126 000 个 句子 。 通 过 选择 由 单 句 组 成 的 人 工 标注 评论 ， 可 以 自动 收集 到 三 个 领域 相 


关 的 数据 集 (计算 机 、 餐 厅 和 汽车 )。 使 用 这 三 个 数据 集 ， 分 类 器 的 准确 率 位 于 83% GF. 


算 机 ) ~85% (和 餐厅) 之 间 ， 这 可 以 与 从 领域 内 数据 训练 而 来 的 分 类 器 的 准确 率 相 媲美 。 
这 些 结果 表明 了 自动 构建 的 语料库 的 质量 ， 它 能 够 用 来 训练 一 个 可 靠 的 句子 级 分 类 般 ， 并 
且 分 类 器 很 容易 移植 到 新 领域 。 

另 一 个 基于 语料库 的 方法 是 由 Mihalcea 等 人 [16] 提出 的 。 在 该 方法 中 ， 通 过 对 平 
行文 本 进行 跨 语言 映射 ， 能 够 建立 一 个 句子 级 的 有 主观 性 标记 的 罗马 尼 亚 语 语料库 。 在 具体 
实现 过 程 中 ，Mihalcea 等 人 使 用 了 一 个 包含 107 个 文档 的 平行 语料库 ， 文 档 从 英语 SemCor 
语料库 [41] 以 及 它 的 罗马 尼 亚 语 人 工 译文 中 获得 。 该 语料库 大 约 包 含 11 0007 HF. 4 
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部 分 约 250 000 个 词 元 。 此 外 ， 它 是 一 个 均衡 的 语料库 ， 涵 盖 了 体育 、 政 治 、 时 尚 、 教 育 
以 及 其 他 领域 的 大 量 主 题 。 | 

为 了 标注 平行 语料库 中 的 英语 部 分 ,需要 使 用 两 个 OpinionFinder 分 类 器 CE 7. 3.3 
节 中 描述 〉 来 对 语料库 中 的 句子 进行 标注 。 随 后 ， 将 OpinionFinder 标注 信息 映射 到 罗马 
尼 亚 语 的 训练 句子 中 ， 这 些 句 子 可 以 用 于 训练 朴素 贝 叶 斯 分 类 器 ， 进 而 对 罗马 尼 亚 句 子 进 
行 主 观 性 自动 标注 。 使 用 一 个 由 504 个 人 工 主 观 性 标注 的 句子 组 成 的 语料库 〈 与 先前 节 实 
验 中 使 用 的 标准 语料库 一 样 ) ， 可 以 对 分 类 器 的 质量 进行 评估 。 当 使 用 高 精确 率 分 类 器 对 
英语 语料库 进行 标注 时 ， 分 类 器 的 整体 准确 率 为 64%”。 当 使 用 高 覆盖 率 分 类 器 时 ， 准 确 率 
上 升 到 68%。 无 论 是 哪 种 情况 ,准确 率 都 显著 高 于 使 用 主要 类 方法 的 基准 系统 的 54%， 
这 表明 跨 语 言 映射 是 一 种 能 够 构建 新 语言 中 主观 性 标注 语料库 集合 的 可 靠 方 法 。 

使 用 同样 的 想法 ， 即 对 平行 文本 进行 跨 语 言 映射 ，Banea 等 人 [17] 提出 了 一 种 基于 
机 器 翻译 的 方法 来 生成 所 需 的 平行 文本 。 通 过 将 英语 的 句子 级 主观 性 标注 自动 映射 到 译文 
文本 上 ， 可 以 构建 罗马 尼 亚 语 和 西班牙 语 的 主观 性 分 类 器 。 先 使 用 罗马 尼 亚 语 作 为 目标 语 
言 ， 同 样 在 之 前 描述 的 具有 504 个 句子 的 标准 数据 集 上 进行 测试 ， 考 虑 不 同 的 翻译 情形 会 
获得 许多 不 同 的 结果 。 第 一 种 情形 ， 目 动 翻译 人 工 标注 的 英语 语料库 CMPQA, 2 
7. 3.2 节 )， 然 后 将 人 工 标 注 映射 到 英文 上 ， 利 用 这 些 标注 来 训练 一 个 分 类 器 。 如 果 分 类 
器 使 用 SVM 分 类 器 [42]， 则 可 以 得 到 66% 的 准确 率 。 第 二 种 情形 ， 使 用 高 覆盖 率 的 
OpinionFinder 分 类 器 对 英语 语料库 进行 自动 标注 ， 然 后 将 标注 结果 映射 到 机 峰 翻 译 的 文 
本 中 。 再 一 次 ， 从 新 语言 中 得 到 的 标注 上 训练 一 个 SVM 分 类 器 ， 此 次 得 到 了 69%% 的 准确 
率 。 最 后 一 种 情形 ， 将 罗马 尼 亚 语 料 库 自 动 翻译 为 英文 ， 随 后 使 用 OpinionFinder 2725 $& 
对 英语 语料库 进行 标注 ， 并 将 获得 的 主观 性 标签 重新 映射 回 罗马 尼 亚 语 语料库 。 在 这 个 数 
据 上 训练 的 SVM 分 类 器 具有 67 26 EA 

同样 的 实验 也 在 西班牙 语 上 进行 。 当 源 语 言 文 本 具有 人 工 主 观 性 标注 时 ， 能 够 得 到 
68% 的 准确 率 ， 当 标注 信息 是 由 OpinionFinder 工具 自动 生成 时 ， 得 到 的 准确 率 为 6325, 
总 体 而 言 ， 使 用 机 器 翻译 文本 获得 的 结果 仅 稍 低 于 使 用 人 工 翻译 文本 时 的 结果 ， 这 表明 机 
器 翻译 能 够 有 效 地 用 于 生成 跨 语 言 映射 技术 所 需 的 平行 文本 。 


7.6 文档 级 标注 


自然 语言 应 用 ， 如 评论 分 类 或 者 网 页 观点 挖掘 ， 往 往 需要 具有 主观 性 和 极 性 标注 信息 的 
语料库 。 除 了 在 以 前 章节 中 描述 的 句子 级 标注 方法 ， 研 究 者 们 也 提出 了 许多 标注 整个 文档 的 
方法 。 与 之 前 相同 ， 我 们 主要 考虑 研究 中 的 两 个 方向 : 基于 字典 的 标注 ， 它 需要 假设 词典 是 
可 得 的 ， 以 及 基于 语料库 的 标注 ， 它 主要 依赖 于 通过 有 标记 数据 训练 的 分 类 和 希 。 


7.6.1 基于 字典 


根据 特定 语言 词典 中 的 已 有 线索 ， 使 用 基于 规则 的 系统 来 对 文档 进行 标注 ， 这 也 许 是 
最 简单 的 文档 标注 方法 。 其 中 一 种 方法 是 由 Wan [43] 提出 ， 他 的 方法 是 通过 使 用 一 个 极 
性 词典 以 及 一 个 带 有 人 负面 词 和 强化 成 分 (intensifier) 的 集合 来 标注 中 文 评 论 。 词典 中 含 
有 3700 正面 词 ，3100 负面 词 和 148 个 强调 成 分 ， 所 有 的 这 些 都 是 从 HowNet 发 布 的 中 文 
情感 分 析 词 汇 表 (vocabulary for sentiment analysis) 上 收集 得 到 。 此 外 ，13 个 负面 词语 
也 是 从 相关 研究 收集 得 到 的 。 给 定 这 个 词典 ,文档 的 极 性 通过 结合 文档 中 句子 的 极 性 标 
注 ， 而 句子 的 极 性 则 为 句子 中 单词 的 极 性 之 和 。 当 在 一 个 含有 886 名 中文 评论 的 数据 集 上 
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在 Wan [43] 提出 的 另外 一 种 方法 中 ， 使 用 机 器 翻译 将 中 文 评 论 翻 译 为 英语 ， 紧 接着 [272] 
使 用 一 个 依赖 于 英语 词典 的 规则 系统 来 自动 标注 英语 评论 。 使 用 两 个 商用 机 妖 翻 译 系 统 以 
及 OpinionFider 极 性 词典 (参见 7. 3. 1 55. 他 们 进行 了 多 组 实验 。 同 样 使 用 前 面 提 到 的 
测试 数据 集 ， 该 翻译 方法 达到 了 81% 的 准确 率 ， 明 显 高 于 使 用 中 文 词典 直接 分 析 评 论 所 达 
到 的 结果 。 此 外 ， 结 合 不 同 的 翻译 和 方法 能 进一步 将 准确 率 提 升 为 85% ， 这 些 表 明 不 同 知 
识 源 的 融合 可 以 获得 比 单个 资源 更 好 的 性 能 。 

此 外 ， 还 有 一 种 方法 是 由 Zagibalov 和 Carroll 提出 的 [14]。 该 方法 是 一 种 拿 衍 方法 ， 
通过 迭代 地 构建 词典 以 及 标注 新 文本 ， 可 以 对 中 文本 文 进行 极 性 标注 。 该 方法 首先 要 识别 
文本 中 的 “ 词 项 ”(lexical item)。 词 项 是 非 字 符 符号 间 的 汉字 序列 ， 并 且 包 括 一 个 否定 词 
和 一 个 状语 。 方 法 使 用 由 人 工 挑 选 的 6 个 否定 词 和 5 个 状语 组 成 的 列表 ， 这 增加 了 该 方法 
运用 于 其 他 语言 的 可 行 性 。 为 了 能 成 为 添加 到 种 子 列表 里 的 候选 ， 词 项 需要 在 所 考虑 的 数 
据 中 至 少 出 现 两 次 。 

接 下 来 ， 方法 识别 文本 中 的 各 种 “区 域 ”(zone)， 这 里 区 域 指 的 是 标点 符号 之 间 的 字 
符 序 列 。 整 个 文档 的 情感 分 数 被 计算 为 评论 所 包含 的 正面 和 负面 区 域 情 感 分 数 的 差 值 。 而 
区 域 的 情感 分 数 由 区 域 中 词 项 的 极 性 分 数 相 加 而 来 。 最 后 ， 词 项 的 极 性 分 值 与 它 的 长 度 
(字符 数 ) 的 平方 以 及 它 的 前 一 个 极 性 分 数 成 正比 ， 而 与 包含 该 词 项 的 区 域 长 度 成 反比 。 
当 词 项 前 面 有 和 否定 词 时 ， 这 个 得 分 要 乘 以 一 1。 

草 衍 过 程 由 迭代 的 步骤 组 成 ， 这 些 步 又 会 使 得 种 子 集 合 不 断 变 大 ， 标 注 文档 的 数量 也 
不 断 增多 。 以 仅 包 含 一 个 形容 词 (good) 的 种 子 集合 为 起 始 ， 新 的 文档 不 断 被 标注 为 正面 
和 人 负面 ， 紧 接着 识别 出 现在 文档 中 的 能 够 添加 到 种 子 集 合 的 新 词 项 。 根据 词 项 的 出 现 频率 
来 决定 它 能 否 添加 到 种 子 集合 中 。 若 添加 到 种 子 集合 中 ， 词 项 在 正 向 文档 和 人 负 问 文档 中 出 
现 的 频率 必须 相差 3 们 以上。 当 连 续 两 轮 没 有 找到 新 的 种 子 时 ， 擎 衍 过 程 将 停止 。 

在 一 个 均衡 的 中 文 评 论语 料 库 上 测试 该 方法 ， 其 中 语料库 是 由 十 个 不 同 的 领域 编 集 而 
来 。 文 档 级 的 平均 准确 度 率 为 83% 。 此 外 ， 该 系统 也 能 在 每 一 个 领域 中 抽取 出 一 个 包含 
50—60 个 种 子 的 集合 ， 该 集合 可 能 对 其 他 的 情感 标注 算法 有 帮助 。 

男 一 个 方法 是 由 Kim 和 Hovy [15] 提出 的 。 该 方法 通过 使 用 一 个 从 英文 翻译 而 来 的 词 
典 对 德语 文档 进行 标注 。 使 用 了 一 个 从 7.4.1 节 中 详细 介绍 的 词典 构造 方法 来 生成 一 个 具有 
约 5000 条 目的 英语 词典 。 使 用 词 对 齐 从 欧洲 议会 语料库 中 上 自动 生成 一 个 翻译 字典 ， 进 而 可 
以 将 上 述 词典 翻译 为 德语 。 该 德语 词典 用 于 一 个 规则 系统 中 ， 然 后 用 系统 对 70 封 德语 邮件 
进行 极 性 标注 。 简 言 之 ， 通 过 一 个 启发 式 方法 来 判断 文档 的 极 性 : 若 文档 中 负面 词 的 数目 超 
过 一 定 阔 值 ， 那 么 文档 具有 负面 极 性 ; 反之 ， 若 文档 中 正面 词 的 数目 超过 一 定 浆 值 ， 则 为 正 
面 极 性 。 总 体 上 来 看 ， 该 系统 正面 极 性 标注 的 下 值 为 60%， 负面 极 性 标注 的 下 值 为 50%。 |273 


7.6.2 基于 语料库 


假定 已 存在 一 个 有 标注 的 数据 集 ， 最 直接 的 基于 语料库 的 文档 标注 方法 是 训练 一 个 机 
器 学 习 分 类 器 。Li 和 Sun [44] 使 用 一 个 中 文 酒 店 评论 数据 集训 练 了 包括 支持 向 量 机 、 朴 
素 贝 叶 斯 和 最 大 炉 的 多 个 分 类 器 。 在 包含 6000 个 正面 评论 和 6000 个 负面 评论 的 训练 集 、 
包含 2000 个 正面 评论 和 2000 个 负面 评论 的 测试 集 上 ， 她 们 获得 了 高 达 92% 的 准确 率 ， 这 
取决 于 使 用 的 分 类 器 和 使 用 的 特征 。 这 些 实验 证 明 如 果 存 在 足够 的 训练 数据 ， 那 么 构建 精 
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Wan [45] 提出 了 一 个 相关 但 更 为 细致 的 方法 。 他 使 用 一 种 能 够 充分 平衡 源 语 言 和 目 
标语 言 资源 的 协同 训练 方法 。 该 方法 在 中 文 产品 评论 的 自动 情感 分 类 上 进行 了 测试 。 对 于 
一 种 给 定 目 标语 言 (中 文 ) 的 产品 评论 ， 该 方法 通过 机 器 翻译 获得 男 外 一 种 语言 (英语) 
的 评论 。 该 算法 然后 使 用 两 个 支持 向 量 机 分 类 器 ， 一 个 用 于 中 文 ， 另 一 个 用 于 英语 ， 进 行 
协同 训练 以 迭代 方法 来 建立 情感 分 类 器 。 方 法 开始 时 ， 训 练 数据 集 包 含 中 文 及 其 英语 翻译 
的 标注 样 例 集 。 接 下 来 ， 执 行 第 一 次 协同 迭代 训练 ， 对 未 标注 实例 进行 分 类 。 如 果 两 种 语 
言 分 类 融 对 未 标注 数据 分 类 的 标签 一 致 ， 那 么 这 些 刚 被 标注 的 实例 将 被 加 入 训练 数据 集 
中 ， 用 于 在 下 次 迭代 中 重新 训练 这 两 个 分 类 器 。 在 这 过 程 中 ， 方 法 不 考虑 分 类 标签 不 一 致 
的 评论 数据 。 正 如 所 预料 的 那样 ， 随 着 和 迭代 次 数 的 增加 ， 分 类 器 的 性 能 不 断 增强 ， 之 后 当 
错误 标记 实例 的 数量 超过 了 某 个 国 值 时 ， 分 类 天 的 性 能 开始 下 降 。 实 验 中 ,每 次 迁 代 加 入 
5 个 正面 和 5 个 负面 的 评论 ， 分 类 器 在 第 40 次 迭代 后 达到 最 高 性 能 ， 整 体 下 值 达到 81%. 
由 于 能 够 充分 利用 跨 语 言 和 语言 内 的 知识 ， 该 方法 是 一 个 成 功 的 方法 ，。 


7.7 MAAM MATN 


当面 临 一 种 新 的 语言 时 ， 我 们 在 为 这 种 语言 创建 一 个 情感 或 主观 性 分 析 的 工具 时 ， 哪 
种 方法 最 好 ? 答案 在 很 大 程度 上 取决 于 该 语言 可 用 的 单 语 资源 和 工具 ， 如 词典 、 大 语 料 
库 、 自 然 语言 处 理工 具 和 一 些 与 主要 语言 2 ， 如 英语 ， 有 路 语言 关系 的 资源 〈 例 如 ， 双 语 
词典 或 平行 文本 )。 


7.7.1 最 佳 情况 : 已 有 人 工 标 注 的 语料库 


当 目 标语 言 中 存在 人 工 标注 的 情感 或 主观 性 语料库 时 ， 是 最 好 的 情况 。 不 幸 的 是 ， 这 
种 情况 很 少见 ， 只 有 很 少 的 语言 才 有 大 规模 人 工 标 注 的 语料库 (如 ， 英 语 中 的 MQPA 语 
料 库 [27]. 

另外 一 种 可 行 的 方案 是 从 网 络 数据 中 得 出 上 述 语料库 ， 比 如 电影 或 产品 的 评论 集 。 对 于 
网 上 存在 大 规模 评论 的 语言 来 说 这 是 可 行 的 方案 。 例 如 ， 很 多 方法 就 依赖 于 网 络 评论 源 ， 包 
括 英 语 的 电影 或 产品 评论 (29, 4], AAP HIF [12，9]， 以 及 酒店 的 中 文 评论 [44]. 

一 旦 拥有 大 规模 的 标注 数据 之 后 ， 不 管 语 料 库 是 人 工 标注 的 还 是 从 公开 的 网 站 挖掘 
的 ， 我 们 便 可 以 通过 训练 一 个 机 器 学 习 系 统 来 轻松 地 获得 一 个 自动 标注 工具 。 该 任务 可 以 
被 认为 是 一 个 文本 分 类 问题 。 像 朴素 贝 叶 斯 、 决 策 树 和 支持 向 量 机 9 这 样 的 学 习 算法 可 以 
用 于 标注 新 文本 的 主观 性 或 情感 。 


7.7.2 次 优 情 形 : 基于 语料库 的 跨 语言 映射 

次 优选 择 是 通过 跨 语 言 映射 的 方法 从 存在 标注 数据 的 主要 语言 中 构建 一 个 目标 语言 的 
标注 数据 集 。 这 就 假定 在 目标 语言 和 主要 语言 (如 英语 ) 之 间 能 够 通过 人 工 或 自动 翻译 来 
构建 两 者 之 间 的 联系 ， 联 系 以 平行 文本 的 形式 存在 。 通 过 这 种 联系 ， 主 要 语言 的 标注 语 
料 库 自动 迁移 到 目标 语言 中 。 该 方法 首先 由 Mihalea 等 人 [16] 提出 ,通过 罗马 尼 亚 
语 -英语 平行 文本 来 映射 主观 性 标签 ， 并 且 随 后 和 机 器 翻译 技术 一 起 运用 ,将 主观 性 标 
签 映 射 到 罗马 尼 亚 语 [17] 或 将 情感 标注 映射 到 中 文 [43]. 


o 即 有 许多 已 有 资源 和 工具 的 语言 。 
O 通常 在 现 有 工具 包 ， 如 Weka [46] 中 可 以 找到 ， 
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翻译 可 以 在 两 个 方向 上 进行 。 首 先 ， 研 究 人 员 可 以 使 用 主要 语言 的 文本 集 ， 以 人 工 或 
自动 方式 翻译 成 目标 语言 文本 。 在 这 种 情况 下 ， 如 果 源 端的 文本 已 经 由 人 工 标注 了 主观 性 
或 情感 信息 〈 例 如 ，MPQA)， 那 么 这 些 人 工 标注 可 以 被 映射 到 目标 语言 中 。 或 者 ， 主 要 
语言 的 文本 可 以 通过 使 用 像 OpinionFinder [24] 这样 的 主观 性 或 情感 分 析 工 具 来 进行 自 
动 标注 。 男 一 种 选择 是 以 目标 语言 中 的 文本 开始 ， 将 它们 翻译 成 资源 丰富 的 主要 语言 
本 。 同 样 ， 翻 译 可 以 通过 人 工 进行 ， 也 可 以 通过 机 谷 翻 译 系统 来 实现 。 

不 论 在 哪个 方向 上 使 用 翻译 ， 不论 使 用 的 是 人 工 创 建 的 平行 语料库 还 是 使 用 机 器 翻译 
的 文本 ， 最 终 都 可 以 获得 有 标注 的 主观 性 或 情感 的 目标 语言 数据 集 ， 这 些 数据 集 用 于 训练 
一 个 如 先前 章节 所 述 的 目 动 分 类 器 。 


7.7.3 第 三 优 情形 : Siti BER 


很 多 方法 依赖 于 主观 性 和 情感 词典 来 创建 基于 规则 的 分 类 器 ， 以 用 于 标注 新 文本 。 例 
如 ， 最 常用 的 英语 主观 性 标注 工具 是 OpinionFinder [24]j， 该 工具 基于 一 个 大 规模 的 主观 
性 词典 [47j。 类 似 地 ，Turney [30] 建议 的 方法 依赖 于 一 个 情感 词 字典 ， 进 而 实现 文本 
极 性 的 自动 标注 。 

对 于 建立 主观 性 或 情感 词典 ， 最 成 功 的 方法 之 一 是 以 少量 的 人 工 选 择 的 种 子 ， 通 过 使 用 
擎 衍 方法 来 建立 词典 。 在 这 过 程 中 ， 如 采 该 语言 有 可 用 的 词性 标注 册 和 句法 分 析 器 ， 那 么 上 
述 擎 衍 过程 可 以 以 信息 抽取 模板 (extraction pattern) 为 基础 [48], B— 一 个 方法 是 使 用 在 电 
Jp is) Scis ms Sof Bolt SE QE [34]。 在 这 种 情况 下 ， 除 了 一 个 目标 语言 的 
词典 ， 不 需要 其 他 的 高 级 语言 处 理工 具 。 以 一 个 包含 所 有 开放 类 词 (openrclass word) 的 种 
子 集合 为 初始 数据 ,方法 收集 字典 中 所 有 相关 词语 ， 包 插 同 义 词 、 反 义 词 和 定义 所 用 的 词 
语 。 在 这 个 候选 词 集合 中 ， 只 有 那些 与 种 子 词语 密切 相关 的 词语 被 保留 下 来 ， 用 于 下 一 轮 的 
擎 衍 迭 代 。 这 里 的 相关 性 是 通过 使 用 如 潜在 语义 分 析 [49]」 那 样 的 相似 度 指标 来 度量 。 在 图 
7-1 中 给 出 了 人 擎 衍 迭 代 过 程 。 经 过 多 次 迭代， 上 述 过 程 将 产生 包含 几 千 个 条 目的 词典 。 

将 词典 应 用 于 基于 规则 的 句子 或 文档 级 标注 分 类 器 ， 这 是 主观 性 或 情感 词典 的 典型 应 
用 。 例 如 ， 在 Banea SEA [34] 使 用 的 分 类 器 中 ， 如 果 句 子 包 含 了 3 个 或 更 多 出 现在 主观 
性 词典 中 的 条 目 时 ， 句 子 将 被 标记 为 主观 的 ; 如 果 句 子 含 有 两 个 或 更 少 的 条 目 时 ， 则 被 标 
注 为 客观 。 文 档 级 标注 也 可 以 通过 文档 中 包含 主观 性 或 情感 单词 的 频率 来 确定 。 


7.7.4 第 四 优 情形 : 翻译 词典 


如 果 上 述 方法 对 于 目标 语言 皆 不 可 行 ， 那 么 最 后 一 种 方法 就 是 将 已 存在 的 主要 语言 的 词 
典 自动 翻译 为 目标 语言 ， 以 此 来 构建 目标 语言 的 词典 。 在 此 ， 唯 一 需要 的 资源 为 一 个 主要 语 
言 的 主观 性 或 情感 词典 和 一 个 双语 字典 ， 用 于 将 主要 语言 的 词典 翻译 为 目标 语言 。 该 方法 最 
早 被 用 于 构建 德语 的 情感 词典 [15]， 随 后 被 应 用 到 构建 罗马 尼 亚 语 的 主观 性 词典 [16]. 

尽管 非常 简单 和 高 效 〈 几 秒 钟 就 可 以 创建 一 个 超过 5000 个 条 目的 词典 )， 但 是 该 方法 
的 准确 率 很 低 ， 这 主要 是 由 于 上 下 文 无 关 翻译 过 程 中 面临 的 困难 造成 的 : 如何 选择 最 合适 
单词 翻译 存在 明显 的 困难 ， 短 语 翻译 的 覆盖 面 小 ， 词 典 中 届 折 形式 和 双语 字典 的 原形 形式 
之 间 并 不 匹配 等 。 即 便 这 样 ， 这 种 方式 构建 的 词典 能 够 很 容易 地 以 人 工 的 方式 修正 ， 因 此 
可 用 于 帮助 创建 给 定 目标 语言 的 主观 性 或 情感 资源 。 


7.7.5 各 种 可 行 方法 的 比较 
因为 并 不 存在 一 种 语言 使 得 上 述 4 种 方法 都 可 以 适用 ， 因 此 ， 要 对 上 述 4 种 方法 做 出 
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全 面 的 比较 是 困难 的 。 然 而 ， 目 前 ， 在 罗马 尼 亚 主 观 标注 工具 研究 方面 ， 研 究 者 们 做 了 很 
多 实验 ， 这 些 实 验 都 是 在 公共 数据 集 上 进行 的 ， 因 此 可 以 让 我 们 做 部 分 比较 。 

K 7-2 给 出 了 这 几 个 实验 的 结果 ， 实 验 均 在 一 个 具有 504 句 人 工 主 观 性 标注 的 数据 集 
上 进行 ( 见 7.4.1 市 )。 只 有 一 个 方法 没有 加 入 对 比 ， 因 为 它 依赖 于 人 工 标 注 语 料 库 ， 而 
罗马 尼 亚 语 没有 人 工 标 注 的 数据 集 。 不 出 意外 ， 以 人 工 构 建 平行 语 料 为 基础 进行 跨 语言 映 
射 的 方法 的 效果 最 好 ， 次 优 的 方法 是 依靠 从 源 端 到 目标 端 或 者 从 目标 端 到 源 端的 机 器 翻译 
的 方法 ， 方 法 的 性 能 和 前 一 方法 很 接近 。 当 没有 任何 标注 资料 可 用 时 ， 可 以 使 用 主观 性 词 
典 构建 一 个 基于 规则 的 分 类 器 。 在 这 种 情况 下 ， 葬 衍 方法 的 效果 最 好 ， 然 后 是 基于 双语 词 
典 进行 路 语言 映射 的 方法 。 

表 7-2 罗马尼亚 语 中 不 同 主观 性 标记 方法 的 对 比 


精确 率 召回 率 F 值 准确 率 
平行 语 料 69. 35 78. 75 73. 76 69. 64 
源 端 到 目标 端 机 器 翻译 67. 76 83. 15 74. 57 69. 44 
目标 端 到 源 端 机 器 翻译 76. 06 59. 34 66. 67 67. 86 
ja) gt BE (17 68. 98 61. 90 65. 25 64. 29 
词典 翻译 65. 84 38. 83 48. 85 55. 95 


7.8 总 结 


情感 分 析 和 主观 性 分 析 是 一 个 迅速 发 展 的 领域 。 虽 然 目 前 的 工作 以 英文 为 主 ， 但 以 其 
他 语言 为 研究 目标 的 工作 也 越 来 越 多 ， 目 前 ， 中 文 、 德 语 、 日 语 、 罗 马 尼 亚 语 、 西 班 牙 语 
及 其 他 语种 已 经 有 许多 可 供 主观 性 及 情感 分 析 研 究 的 资源 及 工具 可 用 。 

本 章 介绍 了 多 语言 情感 、 主 观 性 分 析 相 关 的 一 些 最 新 方法 。 这 些 方法 的 区 别 主要 在 于 
它们 所 采用 的 途径 : 基于 语料库 的 有 监督 方法 或 者 基于 规则 的 无 监督 方法 ， 以 及 这 些 方法 
研究 的 文本 范围 : 词 、 短 语 、 整 个 句子 ， 或 者 整个 文档 。 昌 然 对 现今 所 有 方法 进行 对 比 是 
很 困难 的 事情 ， 但 本 章 仍 尝试 对 目前 较为 通用 的 方法 进行 了 一 个 概述 ， 并 在 罗马 尼 亚 语 主 
观 性 分 析 这 个 特定 任务 中 来 比较 各 种 方法 的 不 同 。 

虽然 资源 贫乏 语种 的 性 能 与 资源 丰富 语种 (如 英语 ) 相 比 仍然 存在 较 大 的 差距 ， 但 多 
语 方法 工作 的 日 益 增 加 ， 有 希望 为 越 来 越 多 的 语言 带 来 资源 与 工具 。 
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| 第 二 部 分 


Multilingual Natural Language Processing Applications; From Theory to Practice 


Xx OR 


第 8 章 “ 实 体检 测 和 追踪 ”， 探 究 确 定 文本 中 是 否 出 现 真 实 世界 中 各 
种 类 型 实体 的 方法 ， 这 些 实体 包括 人 物 、 机 构 和 地 点 ， 以 及 研究 这 些 表达 
的 边界 是 什么 ， 在 什么 情况 下 这 些 实体 是 共 指 关系 。 

第 9 章 “ 关 系 和 事件 ”， 侧 重 于 从 语料库 中 抽取 文本 的 相关 实体 、 相 
关 属 性 及 它们 之 间 的 关系 ， 并 以 一 种 结构 化 的 方式 来 存储 这 些 信 息 。 

第 10 章 “ 机 器 翻译 ”， 描 述 从 一 种 人 类 语言 到 另 一 种 人 类 语言 的 自动 
翻译 方法 。 

第 11 章 “ 跨 语言 信息 检索 ”， 探 讨 了 根据 用 户 的 搜索 查询 ， 检 索 文档 
或 部 分 文档 的 问题 。 

第 12 章 “ 多 语 自动 文摘 ”， 讨 论 了 自动 总 结 文档 摘要 的 问题 。 

第 13 章 “ 问 答 系 统 ”， 根 据 语 料 库 中 的 信息 探索 自动 回答 问题 的 

第 14 章 “ 提 炼 ?”， 描 述 了 问答 中 一 个 相对 较 新 的 领域 ， 依 据 语 料 库 中 
文档 的 信息 ， 处 理 有 多 个 答案 的 复杂 查询 。 

第 15 章 “口语 对 话 系 统 ”， 描 述 了 如 何 建立 一 个 能 够 处 理 人 机 对 话 的 
系统 。 | 

第 16 章 “聚合 自然 语言 处 理 引 掌 "， 讨 论 了 使 用 一 个 通用 结构 将 多 类 
自然 语言 处 理 引 擎 结合 起 来 的 方式 。 
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Multilingual Natural Language Processing Applications; From Theory to Practice 


实体 检测 和 追踪 





Xiaogiang Luo, Irned Zitoun 


8.1 概述 


信息 抽取 (Information Extraction, IE) 是 指 从 自然 语言 文档 中 识别 和 抽取 有 用 的 文本 信 
息 。 信 息 的 “有 用 性 ”是 由 用 户 和 应 用 所 决定 的 。 对 于 输入 的 文档 ， 我 们 经 常 关心 “ 谁 在 何 
时 或 由 于 什么 原因 (为 什么 ) 对 谁 做 了 什么 ”。 很 明显 ， 信 息 抽 取 的 范围 可 以 是 任意 广泛 的 ， 
甚至 有 时 可 能 需要 世界 知识 。 为 使 问题 简化 ， 本 章 我 们 只 关注 以 下 两 个 子 任务 : 

D 从 文档 中 检测 提 及 ， 并 识别 其 属性 : 提 及 是 指 确定 一 个 物理 对 象 (如 一 个 人 物 或 
一 个 组 织 机 构 ) 的 文本 块 ; 

2) 将 指 代 相 同 对 象 的 提 及 用 实体 来 分 组 ; 实体 是 许多 个 指 代 相同 对 象 的 提 及 集合 。 

这 两 个 子 问题 是 对 于 文档 理解 至 关 重 要 的 步骤 ， 因 为 它们 在 语 篇 上 确定 了 重要 的 概念 
对 象 和 它们 之 间 的 关系 。 

第 一 个 问题 叫做 提 及 检测 (mention detection) ， 包 括 检 测 某 种 提 及 的 边界 并 有 选择 地 
确定 其 语义 类 型 (如 人 物 或 组 织 机 构 ) 及 其 他 属性 〈 如 名 称 、 名 词 或 者 是 代词 ) 。 第 二 个 
问题 称 为 共 指 消解 (coreference resolution) ， 将 指 代 相 同 实体 的 提 及 归结 到 一 个 等 价 类 中 。 
由 于 解决 了 这 两 个 问题 就 可 以 识别 一 篇 文档 中 的 实体 及 其 属性 ， 因 此 这 一 章 的 内 容 是 “实体 
检测 和 追踪 ”(Entity Detection and Tracking, EDT), ， 该 术语 也 用 于 ACE [1] 项 目 中 。 

某 种 提 及 可 以 是 名 称 、 名 词 ， 或 代词 。 例 如 ， 

President Ford said that he has no comments. 

(福特 总 统 说 他 没有 评论 。) 

这 名 话 包含 三 个 人 物 提 及 : President (HA), Ford (福特 ) he (他 )。 福 特 是 一 个 
名 称 ， 总 统 是 一 个 名 词 ， 他 是 一 个 代词 。 显 然 ， 总 统 和 福特 指 的 是 同一 个 人 ， 我 们 说 他 们 
属于 同一 个 实体 。 然 而 ， 由 于 上 下 文 有 限 ， 他 指向 的 是 不 是 福特 总 统 是 有 歧义 的 。 兰 断 章 
取 义 ， 福 特 也 可 能 是 一 个 组 织 ， 如 “Ford sold 10 million cars in the first quarter.” (福特 
在 第 一 季度 卖 出 了 1000 HAARE.) 正如 自然 语言 处 理 中 存在 的 许多 其 他 问题 一 样 ， 这 种 
歧义 是 实体 检测 和 追踪 (Entity Detection and Tracking, EDT) 面临 的 主要 困难 。 

提 及 检测 和 共 指 消解 最 成 功 的 方法 就 是 数据 驱动 的 统计 方法 。 对 于 这 种 方法 ， 训 练 数 
据 集 由 人 工 标注 ,并且 可 以 从 数据 中 自动 学 习 到 统计 模型 。 学 习 到 的 模型 可 以 被 应 用 到 未 
知 的 文档 。 和 一 个 基于 规则 的 系统 相 比 ， 统 计 的 方法 有 许多 优点 : 

© 数据 驱动 的 方法 能 够 迅速 测试 不 同 的 算法 和 特征 。 

。 当 通 过 添加 新 的 数据 训练 集 而 有 新 的 数据 可 用 时 ， 统 计 系 统 可 以 不 断 完 善 。 

。 统计 系统 可 以 很 容易 地 移植 到 其 他 语言 。 | 

本 章 中 讨论 的 方法 ， 按 照 把 EDT 核心 算法 与 语言 相关 特性 相 分 离 的 原则 进行 组 织 。 
事实 上 ， 要 讨论 的 算法 在 不 经 过 过 多 修改 的 情况 下 ， 便 可 为 多 种 语言 构建 系统 。 这 并 不 是 
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说 ,我 们 应 该 忽略 语言 问题 。 相 反 ， 依 赖 于 语言 的 现象 可 由 预 处 理 或 从 数据 中 提取 特征 的 
可 配置 模块 来 处 理 。 例 如 ， 对 于 屈折 变化 非常 丰富 的 语言 ， 如 阿拉 伯 语 ， 空 格 分 隔 的 词 在 
EDT 中 可 能 不 是 一 个 很 好 的 单位 ， 而 形 元 (morph) 却 往 往 可 以 解决 数据 稀疏 问题 。 对 于 
没有 空格 的 书面 语言 ， 如 中 文 、 韩 文 、 日 文 ， 必 须要 对 输入 文本 切 分 为 词语 。 男 一 个 例子 
便 是 中 文 的 “ 缩 略 词 ”: 中 文 的 新 闻 是 多 个 连续 词语 的 首 字 、 尾 字 或 者 首 字 尾 字 混 合 而 构 
成 的 。 在 计算 过 程 中 ， 通 过 扩展 缩 略 词 的 定义 ， 从 而 可 以 包含 这 些 情 况 ， 进 而 捕捉 到 这 种 
语言 学 现象 。 

从 系统 结构 的 角度 而 言 ， 有 两 种 EDT 系统 : 

1) 级 联系 统 : 在 这 种 系统 中 ,一 个 提 及 检测 组 件 后 面 串联 一 个 共 指 消解 组 件 。 这 种 
染 构 的 优势 是 两 个 子 系统 之 间 存 在 一 个 清晰 的 界线 ,并且 可 以 独立 开发 和 改进 。 例 如 提 及 
检测 系统 可 以 在 一 个 数据 集 上 训练 ， 而 共 指 消解 系统 可 使 用 完全 不 同 的 另 一 套数 据 集 进行 
训练 。 由 于 两 者 分 离 ， 系 统 可 以 很 容易 识别 和 纠正 错误 。 级 联结 构 的 缺点 是 ， 这 两 个 问题 
本 是 紧密 相连 的 ， 但 却 被 孤立 地 解决 了 。 

2) 联合 系统 : 另 一 种 架构 是 共同 解决 这 两 个 问题 [2]。 换 名 话说， 系统 会 尝试 在 进 
行 提 及 检测 的 同时 找到 共 指 链 : 它 先 假定 一 个 提 及 ， 然 后 寻找 之 前 出 现 的 可 能 指 代 ; 换 句 
话说 提 及 检测 操作 与 共 指 消解 操作 交错 进行 。 这 种 架构 的 优点 是 具有 “全 局 ”最 优 的 系统 
参数 ， 但 它 的 时 间 和 空间 算法 复杂 度 通常 要 比 相应 的 级 联系 统 大 得 多 。 

出 于 如 下 原因 ， 本 章 中 我 们 提出 了 一 个 样 例 级 联系 统 : 首先 ， 提 及 检测 和 共 指 消解 已 
足够 复杂 ， 进 而 它们 值得 单独 处 理 ; 其 次 ， 级 联系 统 使 得 对 两 个 组 件 进行 调试 和 错误 分 析 
比 联 合 系统 更 容易 ; 最 后 ， 这 里 描述 的 级 联 方法 在 实践 中 被 证 实 具 有 非常 好 的 表现 [3 ]. 


8.2 提 及 检测 


提 及 检测 任务 与 命名 实体 识别 (Named Entity Recognition, NER) 关系 密切 ， 命 名 实体 
识别 最 近 在 许多 研究 中 L3, 4, 5, 6] 已 成 为 人 们 关注 的 焦点 并 成 为 评测 任务 的 重点 : 
MUC-6, MUC-7, CoNLL'02 和 CoNLL'03 都 涉及 命名 实体 识别 的 评测 任务 。 在 NLP 文献 
中 ， 一 个 命名 实体 代表 了 一 个 名 称 的 实例 ， 比 如 一 个 地 点 、 一 个 人 物 或 一 个 组 织 机 构 ， 而 
NER 任务 包括 识别 出 这 样 一 个 实体 的 每 一 次 独立 出 现 S 。 这 一 章 我 们 称 具体 对 象 或 抽象 物 的 
文本 引用 实例 为 提 及 ， 它 可 以 是 人 名 (如 John Mayor )， 名 词 (如 president )， 或 代词 (如 
she，it )。 这 个 任务 自从 在 ACE 2003 的 竞赛 中 引信 后 ,已 经 引起 了 人 们 极 大 的 兴趣 。 

在 CoNLL'03 评测 任务 中 ，Florian 等 人 提供 的 系统 获得 了 最 好 的 成 绩 [7]. 该 系统 
对 3 种 不 同 分 类 器 进行 线性 插值 计算 : 1) 隐 马 尔 可 夫 模 型 (HMM); 2) MAM BR 
(MaxEnt); 3) 和 鲁 棒 的 风险 最 小 化 模型 “(RRM)。 他 们 获得 的 最 终结 果 是 英语 有 88. 76 的 
F 值 ， 德 语 有 72. 41 的 F 值 ， 在 这 两 种 语言 的 评测 任务 上 都 是 最 佳 结果 。[L8」 中 描述 的 系 
统 在 CoNLL'03 中 名 列 第 二 。 它 是 一 种 完全 基于 最 大 炉 的 方法 ， 它 使 用 了 不 同类 型 的 特 
征 : 上 下 文 特征 和 词汇 化 特征 ， 如 大 写 词 。Klein 等 人 在 CoNLL'03 中 提出 了 另 一 种 命名 
实体 识别 的 方法 [9]， 是 一 种 基于 字符 的 HMM 方法 。 这 种 方法 非常 依赖 命名 实体 的 内 部 
特征 。 近 期 ，Tran 等 人 [10] 在 越南 语 的 命名 实体 识别 评测 任务 中 显示 ， 使 用 文 持 向 量 
机 方法 的 性 能 超过 了 使 用 条 件 随 机 场 (Conditional Random Field. CRF) 模型 的 方法 


© 在 1995 年 的 消息 理解 会 议 (Message Understanding Conference, MUS-6) 中 ,命名 实体 的 种 类 包括 人 名、 机 构 名 、 
地 名、 时 间 、 百 分 比 、 货 币 量 . 
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(Fg=1 =87. 75 比 86.48)。 这 个 比较 是 在 支持 向 量 机 和 条 件 随 机 场 中 使 用 相同 特征 集 的 条 
件 下 ， 基 于 所 获得 的 下 值 的 平均 值 所 做 出 的 。Benajiba 与 Rosso [11] 和 Benajiba, Diab 
与 Rosso 的 研究 表明 对 于 提 及 检测 与 NER， 使 用 基于 条 件 随 机 场 的 技术 是 有 效 的 。 他 们 
报告 了 阿拉 伯 语 在 使 用 不 同 特征 集 下 的 结果 ， 这 些 特 征集 包括 上 下 文 、 形 态 、 词 汇 特 征 ， 
以 及 基于 地 名 词典 的 特征 。 还 有 一 些 论文 详 述 了 自动 内 容 抽 取 (Automatic Content Extra- 
tion, ACE) 的 结果 。 例 如 ，Florian 等 人 [12] 对 提 及 检测 提出 了 一 个 两 步 法 : 先 边 界 检 
WW, ， 然 后 进行 分 类 。 与 一 个 预测 边界 和 提 及 类 型 的 联合 模型 相 比 ， 这 种 技术 会 获得 更 好 的 
效果 。 我 们 在 下 面 将 介绍 一 种 用 于 提 及 检测 的 数据 驱动 方法 ， 它 使 用 了 MaxEnt 框架 。 这 
种 方法 在 ACE 评测 竞赛 中 显示 出 了 非常 有 竞争 力 的 结果 [1]. 


8.2.1 数据 驱动 的 分 类 


通过 为 文本 中 每 个 独立 词 元 赋予 一 个 标注 ， 提 及 检测 问题 可 形式 化 为 一 个 分 类 问题 。 
这 些 标注 编码 指出 一 个 词 元 是 否 为 某 个 特定 提 及 的 开始 符 ， 或 者 某 个 特定 提 及 的 内 部 元 
3. 或 不 属于 任何 提 有 及。 按照 这 样 的 形式 化 规则 ， 提 及 检测 便 和 许多 其 他 NLP 任务 更 加 
相似 ， 如 基本 名 词 短语 的 分 块 L13」、 文 本 分 块 [14] WR NER [15], 

过 去 的 研究 结果 表明 能 够 融合 多 种 信息 资源 [3. 4. 5] 的 模型 框架 对 于 获得 良好 性 
能 是 至 关 重 要 的 。 在 本 节 中 ， 我 们 介绍 一 个 MaxEnt 提 及 检测 系统 ， 在 进行 分 类 决策 时 可 
以 整合 任意 类 型 的 信息 。 当 然 你 也 可 以 用 你 最 喜欢 的 机 器 学 习 方 法 取代 MaxEnt 模型 ， 只 
要 这 些 信 息 能 够 在 系统 中 有 效 地 运用 起 来 。 

形式 上 ， Diri = (xi, mp o3 xp) Ze ESM aso. (AIP Rt 
档 ) 。 通 过 下 述 方法 可 将 提 及 检测 问题 转化 成 一 个 序列 的 分 类 问题 : 通过 分 配 y; 标签 为 每 
一 个 词 元 zi， 其 中 六 取 自 一 个 有 限 集 : >y 王 (人 2，…，0)}。 例 如 ， 如 果 我 们 想 要 找到 PER 
(AM) 和 ORG GHR), 一 个 提 及 的 潜在 标注 集 编 码 可 以 是 y 二 {PER - B. PER - I, 
ORG -B，ORG -I，O}， 当 词 元 被 标注 为 PER -B 和 了 PER -I 时 分 别 表 示人 物 提 及 的 开始 
及 内 部 ; 词 元 被 标注 为 ORG -B 和 ORG -I 分 别 表示 机 构 提 及 的 开始 及 内 部 ， 词 元 被 标注 
为 O 意味 着 该 词 元 不 是 一 个 提 有 及。 注意 到 尽管 一 个 合法 的 提 及 检测 结果 可 以 用 唯一 的 - B. 
-I、-O 序列 来 编码 ， 在 解码 阶段 必须 要 注意 排除 非法 标注 序列 ; 例如 ， 如 果 不 跟 在 
PER -也 标注 之 后 ，PER -I 标注 是 不 允许 单独 出 现 的 。 

根据 以 上 假设 ， 提 及 检测 系统 的 目标 是 当 给 定 一 个 句子 xy 时 找到 最 可 能 的 标注 序 
列 ， 即 

ya ses argmaxP y, | xy) (8. 1) 


在 实践 中 ， 模 型 POL | ch) 中 参数 的 个 数 通常 是 非常 多 的 ， 以 至 于 想 要 从 有 限 的 训 
练 数据 中 得 到 一 个 较 好 的 估计 是 不 切实 际 的 。 所 以 该 模型 需 由 马 链 式 法 则 来 分 解 ， 去 抒 基 
于 较 长 的 历史 条 件 的 假设 ， 只 考虑 较 短 的 历史 条 件 : 

POA | zb) PO | eh) PO: | xy: POr | zr»»r ? 


(8. 2) 
= Ply, | 2b) PCy2 | rf yi: PCy | DY- 
注意 在 构建 基本 的 模型 模块 中 只 保留 最 近 的 A 一 1 个 标注 ，P Cy: | ats yik) 
在 这 一 章 中 ， 利用 MaxEnt 模型 来 计算 F (yi | Y. Y 21123 
PCyi | zb sy) = exp| >) afi (at iba v | (8. 3) 
j=l 


ZCI + Vib) 
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其 中 ZG: Xie AACA. A; 是 特征 函数 Sj CT, yirs yi) 相应 的 权重 。 对 
于 给 定 的 标注 数据 集合 ， 已 有 好 的 学 习 训 练 算法 (16, 17, 18, 19] 可 以 找到 最 优 参数 ， 
即 最 大 化 训练 数据 的 对 数 似 然 S 。 

MaxEnt 方法 可 以 无 缝 地 将 多 种 特征 类 型 融合 ,但 是 它 会 高 估 低 频 特 征 的 置信 和 度 。 
当 我 们 对 那些 有 着 不 够 可 靠 参 数 估 计 的 特征 施加 一 些 硬性 约束 时 ， 这 个 问题 会 表现 得 更 
为 明显 。 对 模型 作出 某 些 调整 能 够 解决 这 个 问题 ， 比 如 向 模型 添加 高 斯 先 验 概率 [201 
或 指数 先 验 概率 [21]， 利 用 模糊 的 MaxEnt 边界 [22]. 或 者 使 用 带 有 不 等 式 约 束 的 
MaxEnt [23]. 

有 各 种 各 样 的 方法 可 用 于 估算 A; 的 最 优 值 ， 其 中 一 种 是 顺序 条 件 广 义 迭 代 演 算 Se- 
quential Conditional Generalized Iterative Scaling, SCGIS) 技术 ， 它 能 够 既 快 速 又 鲁 棒 地 
进行 提 及 检测 〈 也 能 处 理 很 多 其 他 NLP 问题 ) L18j。 为 了 解决 低频 特征 引起 的 置信 度 过 
高 估计 问题 ， 我 们 建议 从 基于 添加 高 斯 先 验 概 率 的 正则 化 方法 开始 [20]9 。 直观 地 说 ， 
这 个 措施 使 得 模型 的 参数 接近 于 0 值 除非 有 来 自 数据 的 证 据 表 明 其 他 。 在 计算 类 别 的 概率 
分 布 后 ， 选 择 标准 是 挑 出 最 大 后 验 概率 的 那 一 个 。8. 2 节 介 绍 的 解码 算法 可 通过 动态 规划 
算法 完成 序列 分 类 。 


8.2.2 搜索 提 及 


现在 ,我们 拥有 了 自己 的 模型 ,我们 将 用 它 寻 找 句 子 中 的 提 及 。 这 些 提 及 有 很 强 的 交 
叉 依 赖 性 ,如 果 为 每 一 个 词 元 进行 独立 的 分 类 就 无 法 正确 地 建 模 。 
在 公式 (8.2) 中 ， 我 们 进行 标注 序列 分 类 时 ， 限 制 其 只 和 前 & 一 1 个 标注 有 关 ， 但 我 
们 并 不 对 词 元 强加 任何 限制 条 件 : 概率 是 通过 计算 整个 词 元 序列 zf 而 得 。 在 实际 情况 中 ， 
尽管 特征 只 检测 我 们 感 兴趣 的 特定 词 元 的 有 限 上 下 文 ， 但 是 它们 可 以 “ 回 前 看 ”， 即 检测 
当前 词 元 后 一 个 词 元 的 特征 。 
根据 公式 (8.20 所 描述 的 约束 和 条件， 公式 (8. 1) 中 的 序列 可 以 有 效 地 被 识别 。 为 了 
达到 这 一 目标 ， 我 们 创建 一 个 分 类 标签 格 (classification tag lattice) (也 称 为 一 个 架 
(trellis)), QO FATA: 
© 记 zt Ald A JF. S—iss s +> Su} A Fm | y lA MERE. RM 
称 元 素 5; 为 一 个 状态 。 每 一 个 这 样 的 状态 对 应 于 连续 有 个 后 继 词 元 标注 过 程 。 当 
将 元 素 s; MAR 个 元 素 的 向 量 时 ， 我们 发 现 它 是 非常 有 用 的 。 我 们 使 用 sili] 符 
号 来 表示 s; 向 量 中 的 第 7 个 元 素 B riera RE), slije] 代表 该 回 量 介 
于 7) 和 jz 之 间 的 元 素 序列 。 
。 我 们 从 概念 上 把 每 一 个 字符 x. i=1, |, LIS, S= (s. n. su) 联系 起 来 ; 
这 个 集合 代表 当 zi 被 检验 时 zx;_; ;| 所 有 可 能 的 标注 。 
。 然后 ， 我 们 创建 从 集合 S 到 集合 S 丫 ! 的 链接 ， 其 中 i1 二 1，…，L 一 1， 链 接 上 其 有 如 
下 式 所 示 的 属性 


ly = 


t 
ws; 5j. 


i LE] Ex ssi [4--& —1D 4E s [2:81 = S DE ek 1] 
0 否则 
日 、 该 方法 的 描述 已 超出 本 章 范围 ， 感 兴趣 的 读者 请 自行 阅读 所 引用 的 参考 文献 进行 深入 研究 。 


© ”注意 得 到 的 模型 并 不 是 真正 意义 上 的 最 大 炉 模 型 ， 它 不 是 一 个 有 最 大 炉 的 模型 (乘积 中 的 第 二 项 ) 而 是 一 个 
最 大 后 验 概率 的 模型 。 
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这 些 权 值 与 从 sj 状态 到 si*! 状 态 的 转换 概率 相对 应 。 如 果 状 态 不 相 容 ( 即 ， 没 有 可 
能 的 标注 序列 y, 使 得 Y [i—k--1, +, i] 是 词 元 ria MREFA, Yli k+2, 
;十 1] 是 词 元 zx;-i,, 的 分 类 标注 序列 )， 那 么 其 权 值 是 0。 如 果 这 两 种 状态 是 相 容 
的 ， 那 么 权 值 与 在 上 下 文 标签 sit [1…k 一 1] 和 观察 到 的 词 元 序列 zf 中 预测 标 
A SU [k] 的 概率 成 正比 。 
。 对 于 每 个 词 元 xz;， 我 们 递归 地 计算 S 
ao(s;)= 0,7 = 1,*…,k 


ai(s;)9 max ais; ) + logw(ss ssh) 
j=l eM 1 l 


yiCs;) = arg max aii Cs. Ju logus; :5 ) 


Ji 


直观 地 理解 ，ai;(s;) 代表 在 格 中 经 过 i 步 后 ， 以 s; 状态 结束 的 最 可 能 路 径 的 对 数 
WR, yi) 代表 在 这 条 特定 的 路 径 上 s; 之 前 的 状态 。 
在 计算 (ai): 的 值 时 ， 寻 找 最 优 路 径 的 算法 与 公式 (8.1) 的 解 相对 应 ， 哺 
1) 确定 SE —argmax, mj aL sj). 
2) MF i= L—1-—1. HN str... Csi}. 
3) 给 出 公式 (8.1) 的 解 : 
y = {si lk], si [k], ,st CRT) 
完整 的 算法 参见 算法 8-1。 该 算法 的 时 间 复 杂 度 为 8(|y|*，L)， 对 于 句子 长 度 工 为 线 

性 复杂 度 ， oR TUR UNIES 为 了 减少 搜索 空间 ， 我 们 使 用 柱 

[290] 搜索 (beam search), 


算法 8-1 维特 比 (Viterbi) 搜索 


WA: 词 元 wf 
输出 : 最 可 能 的 标注 序列 ( 即 提 及 ) gr = argmax,r P (yt'|zt) 
创建 S— (55... 0), REV — A GRE 
for j = 1, M doa; —0 
fori—l-—k,L--kdo 
for j = 1, M do 
Yi = 1, bj = —oo 
for j' = 1, M such that s; [2..k] = s; [1..k — 1] do 
v — ay — logw (s,s 
if (v > b) then 
by ev, Vi 
ab 
SL+k = arg mAX;—1...màj 
j = arg max; YL+k,j 
fori=L+k—1...1 do 3 — sj, J — aa 
yr e (81 [1] SOTA] yee Sr [1]) 


柱 搜索 

任何 人 实现 算法 8-1 都 面临 着 一 个 现实 的 挑战 : 即使 & 值 很 小 ,空间 y^ 也 可 能 十 分 
大 ， 尤 其 是 当 分 类 空间 很 大 的 时 候 。 这 一 问题 的 出 现 是 由 于 算法 的 搜索 空间 与 |y|* RE 
比 。 实 际 上 ， 对 于 很 多 自然 语言 处 理 任务 (NLP) 而 言 ， 这 也 是 柱 搜索 算法 被 认为 更 好 的 


O JEEN, MRS sj 相关 联 的 下 标 i Ea., MER is HK ai(s;) H als). 
名 ”因为 数值 精确 的 原因 ，e 用 对 数 函 数 来 计算 ， 因 为 如 果 使 用 本 身 数 值 计算 即 使 很 短 的 句子 也 会 导致 结果 过 小 而 
不 精确 。 男 一 种 方法 ,我们 可 以 用 a 的 系数 进行 规 一 化 ， 即 在 每 次 计算 时 用 架 中 列 的 所 有 系数 和 来 进行 归 一 化 。 
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原因 。 这 一 算法 是 基于 以 下 理念 而 被 构建 出 来 的 : 在 架 中 的 许多 节点 有 非常 小 的 a 值 ， 而 
这 些 值 将 不 会 被 包含 在 任何 “ 较 优 ”的 路 径 中 ， 因 此 这 些 值 可 以 在 计算 中 被 跳 过 而 几乎 不 
会 影响 最 终 效果 。 为 了 达到 这 一 目的 ， 在 架 中 的 第 i 步 时 ,算法 仅 保 留 很 少 的 M= | y| 4 个 
状态 。 然 后 ， 在 计算 出 第 i 十 1 步 时 扩展 的 节点 后 ， 即 可 基于 它们 的 w 值 过 滤 掉 部 分 状态 。 
我 们 可 以 采用 多 种 过 滤 技 术 ， 而 这 其 中 最 常用 的 两 种 是 : 

。 固定 柱 宽 : 在 每 步 中 仅 保 留 前 n 个 高 分 候选 作为 扩展 。 

。 可 变 柱 宽 : 在 第 i 步 中 仅 保 留 和 最 高 得 分 候选 项 相对 距离 为 某 一 特定 值 (按照 o) 

之 内 的 候选 项 。 

这 两 种 方法 都 是 很 好 的 选择 。 经 验 表 明 柱 宽 为 5 和 相对 距离 为 30% 的 可 变 柱 宽 可 显著 
加 快 计算 速度 (20~30 倍 ) ， 并 且 几 乎 不 会 降低 其 性 能 。 在 特定 任务 中 ， 应 该 使 用 相应 的 
开发 集 来 优化 这 些 参 数值 ， 当 然 这 也 取决 于 研究 人 员 如 何在 速度 和 准确 性 中 进行 取舍 。 


8.2.3 提 及 检测 特征 


如 前 文 所 述 的 最 大 暗 框架 ， 任 意 一 种 特征 都 可 以 被 使 用 。 这 使 得 系统 设计 人 员 可 以 对 
感 兴 趣 的 特征 类 型 进行 试验 ， 而 不 用 担心 特征 间 的 相互 作用 。 比 较 起 来 ， 在 基于 规则 的 系 
统 中 ， 系 统 设 计 人 员 不 得 不 考虑 在 一 个 特殊 的 示例 中 字典 信息 与 词性 信息 、 组 块 信息 的 互 
相 影 响 。 这 并 非 是 说 最 终 基 于 规则 的 系统 在 某 些 方面 比 统计 模型 差 。 基 于 规则 的 系统 是 基 
于 宝贵 的 洞察 构建 的 ， 如 果 我 们 把 自己 限制 为 仅 采 用 统计 方式 进行 建 模 ， 那 么 这 些 见 解 是 
很 难得 到 的 。 事 实 上 ， 基 于 规则 的 系统 的 输出 很 容易 被 整合 为 MaxEnt 框架 的 输入 特征 之 
一 ， 这 也 使 得 该 框架 在 通常 情况 下 能 够 获得 比 其 他 任何 类 型 的 系统 都 更 好 的 性 能 。 

在 一 个 典型 的 提 及 检测 系统 中 ， 使 用 的 特征 通常 可 以 分 为 5 大 类 : 词汇 特征 、 句 法 特 
征 、 从 其 他 命名 实体 分 类 器 获得 的 信息 〈 具 有 不 同 的 语义 标注 集合 ) 、 基 于 地 名 词典 的 特 
征 和 路 语言 的 提 及 传播 所 获得 的 特征 。 我 们 还 使 用 了 前 文 提 到 的 分 类 标签 作为 附加 特征 。 

1. 词汇 化 特征 

当前 词 元 ( 段 ) zi 本 身 及 其 上 下 文 很 显然 是 判断 zi 是 否 是 一 个 提 及 的 最 重要 的 特征 之 
一 [3，5]。 词 汇 特 征用 跨越 当前 词 元 的 n 元 组 来 实现 ， 包 括 其 前 驱 和 后 继 部 分 。 对 于 一 
isc xi, 7 元 组 特征 包括 前 x 一 1 个 词 J6 Crisi» xn-1) 和 后 n 一 1 个 词 元 Gi 
Ut, XYiba2)5 n — ROB 3 就 会 有 很 好 的 效果 。 

在 一 个 形态 学 丰富 的 语言 中 ， 如 阿拉 伯 语 ， 我 们 应 该 考虑 所 实现 的 特征 : 是 词 干 的 7 
元 组 ， 同 样 包括 前 驱 和 后 继 部 分 [4]。 如 果 当 前 词 元 zx; 是 一 个 词 干 ， 词 干 的 n 元 特征 应 包 
& Bi SK E n —1 个 词 干 和 后 继 的 n 一 1 个 词 干 。 词 干 nn 元 组 特征 由 附着 的 前 级 和 后 缀 的 单词 
的 基本 形式 GAF) 构成 ， 其 表示 了 一 个 词汇 的 一 般 形式 ， 这 样 便 减 少 了 数据 稀疏 。 在 
我 们 的 实验 中 ，nn 被 设置 为 3( 词 干 的 三 元 特征 )。 

2. 句法 特征 

句法 特征 包括 词性 标记 和 浅 层 句法 分 析 信 息 。 这 使 得 在 提 及 检测 时 引入 了 另 一 个 层级 
的 抽象 性 和 普遍 性 。 我 们 发 现在 当前 词 元 的 小 窗口 使 用 POS 和 浅 层 句法 分 析 信 息 是 很 有 
效 的 。 例 如 ， 在 每 个 词 元 的 大 小 为 5 的 窗口 中 (当前 词 元， 前驱 的 琴 个 词 元 和 后 继 的 两 个 
词 元 ) ， 我 们 可 以 在 词性 和 分 块 信息 的 基础 上 计算 特征 9 。 词 性 信息 有 助 于 对 某 些 词 元 消 
歧 。 浅 层 句法 分 析 信 息 或 文本 块 ， 有 助 于 定义 提 及 的 边界 。 例 如 ， 如 果 两 个 相 邻 的 词 元 


O ” 块 是 一 个 对 应 句法 短语 的 较 短 的 单词 序列 ， 通 常 它 不 再 存在 任何 子 句法 短语 。 
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Tis SHBFATA MA 〈 例 如 ， 分 别 是 名 词 短 语 和 动词 片 语 ) ， 并 且 or. 是 提 及 m; 
的 一 部 分 ， 那 么 zi+1 不 可 能 也 是 同一 个 提 及 m; 的 一 部 分 。 

3. 来 自 其 他 命名 实体 分 类 器 的 特征 

除了 用 丰富 的 词汇 和 句法 特征 之 外 ， 利 用 不 同 的 提 及 标注 器 也 是 非常 有 用 的 。 这 些 标 
注册 在 不 同 于 “初级 ”标注 器 的 数据 集 上 训练 。 此 外 ， 这 些 标注 器 识别 的 提 及 类 型 和 我 们 
关注 的 可 能 并 不 相同 。 假 设 我 们 关注 的 是 ACE 任务 。 某 一 个 标注 器 可 以 识别 出 很 多 类 别 ， 
包括 日 期 或 职业 〈 这 并 不 是 ACE 的 一 部 分 )。 它 可 能 也 会 识别 出 人 物 类 别 ， 但 根据 各 自 的 
标注 标准 不 同 ， 可 能 不 匹配 我 们 标注 任务 中 的 人 物 概念 。 有 一 种 假设 一 一 组 合 假设 (com- 
bination hypothesis) 是 将 提 及 和 不 同 来 源 的 命名 实体 分 类 器 相 结 合 ， 将 互补 的 信息 
加 入 到 提 及 检测 模型 当中 ， 从 而 提高 性 能 。 事 实 上， 由 Borthwick 等 的 研究 结论 得 出 
L24」， 来 自 不 同 标注 器 的 输出 在 作为 提 及 检测 模型 的 额外 特征 柱 时 是 非常 有 效 的 。 这 种 方 
法 可 以 让 系统 将 不 同 的 提 及 类 型 自动 关联 到 理想 的 输出 ， 而 不 需要 人 工 映 射 。 

4. 基于 地 名 词典 的 特征 

一 个 地 名 词典 (gazetteer) 是 一 种 特殊 类 型 © 的 词典 ， 它 包含 一 些 特 定 类 型 的 词 项 。 
用 于 提 及 检测 系统 的 地 名 词典 通常 包括 人 名 、 国 家 名 和 公司 名 。 名 称 地 名 词典 通常 包含 单 
词 元 的 名 ， 如 Daniel 或 Gafsa, 也 有 短语 的 名 称 ， 如 Ben Ali, Barak Obama 或 United 
States。 这 种 提 及 检测 系统 通过 一 个 简单 的 特征 也 数 来 进行 检测 ， 该 函数 返回 一 个 特定 词 
元 是 否 在 地 名 词典 中 。 更 正式 地 说 ， 当 处 理 词 元 x; 时 ， 我们 检查 词 元 本 身 zx; 或 它 周 围 的 
WIG (x is 5^» Cea) ee 

5. 跨 语言 提 及 的 传播 特征 

很 少 有 英语 以 外 的 语言 有 规模 较 大 并 且 质 量 较 高 的 可 用 数据 资源 。 大 多 数 语言 只 有 较 
少 的 数据 资源 可 用 。 我 们 可 以 通过 使 用 有 大 规模 资源 的 语言 来 提高 另 一 种 语言 的 提 及 检测 
系统 ， 从 而 减轻 资源 匮乏 带 来 的 差异 性 。 该 方法 需要 有 建立 在 丰富 资源 语言 上 的 检测 系 
t. 并且 有 从 源 语 言 到 资源 丰富 语言 同时 含有 词 对 齐 的 翻译 。 首先 ， 我 们 使 用 的 统计 机 器 
翻译 (SMT) 系统 将 源 语 言 的 单元 〈 文 档 或 句子 ) x 翻译 为 资源 丰富 的 语言 ， 以 生成 目 
标 序列 他 二 (8&1 , 色 ，… ,Em)。 以 词 元 序列 er 作为 输入 ， 一 个 建立 在 资源 丰富 语言 上 的 提 
及 检测 系统 为 每 个 词 元 赋予 提 及 标注 ， 构 造 出 标注 序列 GO =C ns Jos o> qwe. EH 
SMT 产生 的 源 文本 xz? 和 翻译 文本 Er 间 的 词 对 齐 [25]， 我 们 将 目标 语言 的 标注 p 传播 
到 源 语言 ， 建 立 标注 序列 I= Gis Jas wo J)O. BHF, MR-TPRRE RBS 
的 词 元 序列 &&i+1&i+2 与 源 语言 中 的 ari, FFA 56+16+2 被 标注 为 一 个 地 点 提 及 ， 
那么 序列 xj;zj+1 可 以 被 标注 为 地 点 提 及 : B-LOC、LLOC。 因 此 , 每 个 在 xf 中 的 词 元 x; 
的 标注 与 传播 源 的 3 中 5; Meet, XXH oy;— 9G. A. QUO. HHA 是 源 语言 和 资 
源 丰 富 语言 之 间 的 对 齐 信 息 。 在 我 们 使 用 SMT 词 对 齐 将 目标 语言 CY 的 标注 序列 pU 传播 
到 相应 的 目标 语言 文本 zf 上 时 ， 我 们 将 得 到 一 个 标注 序列 次 ， 使 得 每 一 个 在 oh 中 的 oz; 
都 赋予 一 个 3 了 中 的 3;。 这 个 标注 序列 可 以 被 用 作 MaxEnt 框架 中 的 一 个 额外 的 特征 ， 也 
可 以 用 来 构建 基于 地 名 词典 的 特征 。 对 于 提 及 检测 系统 中 路 语言 提 及 传播 方法 的 更 多 详细 
信息 ， 请 参阅 Zitouni, Florian [26] 和 Benajiba, Ztouni [27]. 





加 ”从 技术 上 讲 ， 地 名 词典 特 指 一 个 地 名 列表 ， 但 是 在 NLP 领域 中 其 应 用 可 能 会 更 加 广泛 。 
O 如 果 你 常用 的 SMT 系统 没有 提供 词 对 齐 功 能 ， 也 可 以 使 用 Giza 十 十 。 
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8.2.4 提 及 检测 实验 


实验 使 用 ACE 2007 数据 集 3 ， 包 括 4 种 语言 : 阿拉 伯 语 、 中 文 、 英 语 和 西班牙 语 。 
这 些 数 据 是 从 各 种 领域 〈 广 播 新 闻 、 广 播 谈 话 、 新 闻 专 线 、 博 客 、 电 话 访谈 ) 中 挑选 出 来 
的 ， 标 注 类 型 被 分 为 7 类 : 人 、 组 织 机 构 、 地 点 、 设 施 、GPE (Geopolitical Entity， 地 理 
政治 实体 )、 交 通 工具 、 武 器 。 除 了 提 及 信息 ， 提 及 、 关 系 、 事 件 、 时 间 之 间 的 共 指 也 会 
被 标注 出 来 。 

因为 用 于 评测 的 测试 集 答案 是 不 公开 的 ， 我 们 将 公开 的 训练 语 料 按 85% 和 15 96 B E 
例 分 开 。 为 了 便于 将 未 来 和 现在 的 工作 进行 比较 并 模拟 出 一 个 实际 的 方案 ， 划 分 原则 基于 
文 曹 的 日 期 : 测试 数据 是 从 训练 集中 按照 年 代 顺 序 


在 每 一 个 领域 中 挑 出 最 后 15% 的 数据 。 这样 测试 表 8-1 数据 集 的 文档 数 
集 和 训练 集中 的 文档 在 时 间 上 便 不 会 有 重 琶 了 ，” 语 F 训练 集 测试 集 
而 且 测 试 集 的 数据 相 比 训练 集 数据 在 时 间 上 是 更 。 阿拉 伯 语 33 5 ——— 
新 的 。 表 8-1 列举 出 了 每 种 语言 中 训练 数据 和 测 中 文 538 95 
试 数据 集 的 文档 数 。 | 英语 a 499 100 


HE 
使 用 ACE 数据 的 性 能 通常 用 一 个 特定 的 指标 “一 zu 52 


来 评估 ， 即 ACE 值 L1]， 因 为 我 们 只 对 提 及 检测 任务 感 兴趣 ， 所 以 我 们 使 用 更 直观 和 更 
MITH FÉ (没有 加 权 的 ) 来 进行 估计 ， 即 召回 率 与 精确 率 的 调和 平均 数 。 

X 8-2 呈现 了 提 及 检测 试验 系统 在 使 用 了 所 有 可 用 的 语言 学 知识 后 对 于 4 种 语言 的 结 
果 ， 包 括 通过 词汇 (3 个 词 窗口 的 词 和 形 元 , 长度 不 大 于 4 的 前 、 后 级 、 英 语 还 利用 了 
WordNet [28])、 句 法 (词性 标记 、 文 本 块 );， 和 其 他 信息 提取 模型 的 输出 。 


表 8-2 阿拉 伯 语 、 中 文 、 英 语 、 西 班 牙 语 提 及 检测 系统 的 结果 。 结 果 用 精确 率 (P) BS (R), FÉ 
(F) 来 度量 ， 列 数 (N) 表示 测试 集中 提 及 的 数量 
iB a N P R F 语言 N P R F 
阿拉 伯 语 3566 83. 6 76.8 80. 0 英语 8170 84. 6 80. 8 82.7 
中 文 4791 81. 1 713 75.8 西班牙 语 2487 79. 1 73.5 76.2 


结果 表明 英语 的 提 及 检测 系统 和 阿拉 伯 语 、 中 文 和 西班牙 语 这 些 其 他 语言 的 系统 相 
比 ， 有 更 好 的 性 能 。 这 些 结果 基本 是 可 以 预想 到 的 ， 因 为 英语 的 模型 训练 有 规模 更 大 的 数 
据 集 ， 并 且 可 以 使 用 更 丰富 的 信息 比如 WordNet [28] 和 建立 在 更 大 数据 集 上 的 信息 抽取 
系统 的 输出 。 

另 一 个 实验 是 利用 高 性 能 的 英语 提 及 检测 系统 ， 研 究 跨 语言 提 及 传播 特征 的 影响 ， 以 
进一步 改进 其 他 语言 的 系统 ,我们 特别 考虑 改进 阿拉 伯 语 、 汉 语 和 西班牙 语 的 系统 。 为 了 
这 个 实验 ， 我 们 使 用 了 3 个 BLEU [29]s 分 数 非常 有 竞争 力 的 SMT 系统。 阿拉伯 语 到 英 
语 的 SMT 系统 与 Huang、Papineni [30] 的 描述 类 似 ,， 在 NIST (National Institute of 
Standards and Technology) 2003 的 阿拉 伯 语 到 英语 的 翻译 评测 中 ， 得 到 0. 55 的 BLEU 分 
数 。 汉 语 到 英语 的 SMT 系统 与 Al-Onaizan, Papineni [31] 的 架构 相似 。 这 个 系统 在 
NIST 2003 汉语 号 到 英语 机 器 翻译 评测 中 ， 获 得 了 0.32 的 BLEU 分 数 。 西 班 牙 语 到 英语 


C 和 ACE 2008 的 数据 相同 。 
© BLEU 是 一 个 使 用 多 参考 译文 对 翻译 质量 进行 自动 评测 的 指标 。 
& ”此 处 应 该 是 原 书 错误 ， 原 书 为 阿拉 伯 语 到 英语 。 一 一 译 者 注 
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的 SMT 系统 与 Lee SA [32] 描述 的 系统 相似 ， 在 TC-STAR 2006 的 最 终 版 本 的 欧洲 议 
会 全 会 语音 语料库 评测 中 获得 了 0.55 的 BLEU 分 数 。 表 8-3 表明 了 当 借 助 于 英语 提 及 检 
测 系 统 抽取 的 特征 时 ， 阿 拉 伯 语 、 中 文 和 西班牙 语 的 提 及 检测 系统 的 性 能 都 有 所 提升 。 提 
及 检测 系统 的 性 能 在 阿拉 伯 语 上 增加 了 0. 9F (80.9 与 80.0)， 中 文 上 增加 了 2. 3F (78. 1F 
与 75. 8F)， 西 班 牙 语 上 增加 了 1. 9F (78. 1F 与 76. 2F)。 结 果 表 明 利 用 跨 语言 提 及 传播 信 
息 在 提升 性 能 方面 是 有 效 的 。Zitouni、Florian [26] 认为 随 着 语言 的 可 用 资源 越 来 越 多 ， 
性 能 的 提升 却 有 减缓 的 趋势 。 这 个 结果 有 助 于 回答 一 个 很 重要 的 问题 : 在 一 个 资源 贫乏 的 
语言 中 ， 当 我 们 想 要 提升 提 及 检测 系统 的 性 能 时 ， 我 们 应 该 构建 资源 还 是 利用 另 一 个 资源 
丰富 的 语言 的 标注 传播 呢 ? 答案 似乎 是 后 者 。 
表 8-3 ”完整 的 提 及 检测 系统 在 阿拉 伯 语 、 中 文 、 西 班 牙 语 上 的 结果 ， 使 用 词汇 、 句 法 、 
信息 提取 模型 的 输出 、 跨 语言 传播 特征 (成 熟 的 系统 )。 结 果 用 精确 率 (P). A 
回 率 (R) FÉ (F) 来 度量 ， 列 数 (N) 表示 测试 集中 提 及 的 数目 
跨 语言 提 及 传播 
语言 N P R F 
阿拉 伯 语 3566 84. 2 77.8 80. 9 
mx 4791 81. 7 74.8 78.1 
西班牙 语 2487 80. 1 76.2 78. 1 


8.3 共 指 消解 

在 某 些 自然 语言 应 用 中 仅 获 得 文档 中 一 些 独立 的 提 及 是 不 够 的 。 例 如 ， 在 基于 下 述 段 
落 的 情况 下 ， 对 于 “When was John F. Kennedy assassinated?” (约翰 F. 肯尼迪 何 时 中 
刺身 亡 的 ?) 这 个 问题 ， 我 们 该 如 何 回答 : 

John F. Kennedy was the thirty-fifth President of the United States. He was later as- 
sassinated on Friday, November 22, 1963. 

(约翰 FF. 肯尼迪 是 美国 第 三 十 五 届 总 统 。 后 来 他 在 1963 $11 A 22 RH E 3 3X 
暗杀 。) 

John F. Kennedy 被 一 个 代词 提 及 He (fto. 所 指 ， 于 是 答案 在 后 一 句 话 中 可 以 找到 。 
因此 为 了 正确 回答 这 个 问题 ， 知 道 He Ub) 指 的 是 John F. Kennedy 是 至 关 重 要 的 。 

将 那些 指向 同一 个 物理 对 象 的 提 及 链接 到 一 个 实体 的 过 程 叫做 共 指 消解 。 共 指 消解 和 
指 代 消解 非常 相近 ， 指 代 消 解 指 的 是 找到 代词 的 正确 先行 词 。 我 们 使 用 共 指 消解 是 因为 本 
节 所 讨论 的 问题 范围 较 指 代 消解 更 为 广泛 ， 包括 了 解决 所 有 类 型 名 词 短 语 的 指 代 关系 。 

虽然 基于 规则 方法 [33, 34, 35, 36] 的 共 指 消解 已 有 很 多 研究 ,但 本 文 关注 的 是 基 
于 机 器 学 习 的 方法 。 我 们 知道 有 大 量 的 研究 工作 是 有 关 建 立 可 学 习 的 共 指 消解 系统 的 
[37，38，39，40，41，42，43]。 早 期 的 系统 [37, 38] 通过 训练 数据 学 习 一 个 模型 ， 对 
于 一 对 提 及 指向 同一 实体 的 可 能 性 赋予 一 个 分 数 。 然 后 根据 提 及 对 的 分 数 对 指向 的 实体 进 
行 聚 类 。 这 类 系统 的 一 个 技术 难点 是 传递 性 。 例 如 ， 如 果 提 及 A SER BS BR, HRB 
与 提 及 C 链接 ， 但 提 及 A 没有 与 提 及 C 链接 ， 那么 系统 没有 处 理 这 种 传递 性 的 能 力 。 在 
实际 情况 中 ， 基 于 提 及 对 的 系统 通常 将 提 及 链接 到 第 一 个 高 于 指定 阔 值 的 候选 抑 行 词 或 候 
选集 中 最 好 的 先行 词 来 解决 这 个 问题 。 为 了 克服 这 个 缺点 ， 一 些 研 究 者 (40, 44, 42] X 


SO 这 表明 ， 分 数 高 于 预 设 的 闽 值 。 
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用 实体 - 提 及 模型 ， 即 计算 一 个 候选 实体 和 当前 提 及 的 分 数 。Nsg [45] 提供 了 在 过 去 10 一 
15 年 中 有 关 基 于 机 器 学 习 的 共 指 消解 的 研究 进展 。Nsg 的 研究 工作 还 介绍 了 各 种 有 用 的 资 
源 ， 如 已 标注 的 共 指 语料库 和 有 关 的 公开 评测 任务 。 本 章 的 其 余部 分 ， 我 们 重点 关注 一 个 
基于 Bell 树 算法 的 共 指 消解 系统 [40]。 我 们 的 目标 是 ， 使 各 位 想 动手 实践 的 读者 在 阅读 
完 本 章 之 后 可 以 实现 这 个 算法 。 


8.3.1 Bell 树 的 构建 


Bell 树 是 一 种 数据 结构 ， 它 表示 在 一 篇 文档 中 提 及 可 能 指 代 的 实体 的 假设 空间 。 众 所 
周知 ， ii Bell 数 [46] B», Bell 
数 有 一 个 近似 的 公式 : BO) = T MT CME ”的 增长 急剧 增加 。 比 如 BCO200225.2X 
103 ， 它 已 经 是 一 个 天 文 效 字 了 1 毫 无 疑问 不 可 能 完整 地 搜索 整个 空间 ， 所 以 一 个 有 效 的 
搜索 策略 是 必要 的 。 

在 我 们 解决 搜索 问题 之 前 ， 首 先 描 述 一 下 通过 文档 中 的 提 及 和 共 指 模型 构建 Bell 树 的 
过 程 。 我 们 假设 文档 中 的 实体 增 量 地 由 提 及 产生 ， 并 且 同 步 地 构建 出 Bell 树 。 第 一 个 提 及 
用 来 生成 树 的 根 节点 ， 后 续 的 每 个 提 及 或 者 是 开始 指 代 一 个 新 实体 〈 添 加 )， 或 者 链接 到 
已 有 实体 。 在 这 个 过 程 结束 的 时 候 ， 每 个 叶 节 点 代表 一 个 可 能 的 共 指 结果 。 这 个 过 程 称 为 
提 及 同步 ， 当 加 入 一 个 新 的 提 及 ， 就 会 在 树 中 每 层 创建 节点 。 因为 树叶 的 数量 就 是 可 能 共 
指 结果 的 数量 ， 即 等 同 于 Bell 数 [46」， 这 棵 树 就 被 称 作 Bell 树 。 

图 8-1 说 明了 Bell 树 是 如 何 依据 下 述 三 个 提 及 创建 的 : 

President Ben Ali said that his minister, Mohammed Ghannouchi, will present the case. 

初始 节点 由 第 一 个 不 完整 实体 [President] 组 成 〈 即 在 图 8-1 中 的 节点 a)。 接 下 来 ， 
HX Ben Ali (参见 图 8-1 顶部 的 线 ) 活跃 ， 可 以 链接 不 完整 实体 LPresident]， 并 生成 新 
的 节点 bl ， 也 可 以 引入 一 个 新 的 实体 并 创建 另 一 个 节点 b2。 活 跃 的 提 及 可 能 链接 的 不 完 
整 实体 称 作 受 关注 的 实体 〈in-focus)。 类 似 地 ， 提 及 his 在 下 一 个 阶段 活跃 ， 可 以 有 5 种 
可 能 的 操作 ， 也 会 产生 5 种 可 能 的 共 指 绪 果 如 图 所 示 节 点 cl 一 c5。 

. 图 8-1 描绘 的 推导 过 程 中 ， 每 个 Bell 树 的 叶 节 点 对 应 一 个 可 能 的 共 指 结果 ， 不 存在 其 
他 可 能 的 实体 结果 。 因 此 ，Bell 树 完全 表示 了 共 指 消解 问题 的 搜索 空间 。 共 指 消解 最 终 等 
同 于 找到 最 好 的 叶 节 点 。 由 于 搜索 空间 巨大 ， 所 以 即使 文档 中 只 有 中 等 数量 的 提 及 ， 也 很 
难 直 接 估计 Bell 树 中 树叶 分 布 的 情况 。 但 是 ， 我 们 可 以 考虑 提 及 到 实体 的 建 模 处 理 过 程 。 
观察 实体 创建 的 动态 视图 ， 共 指 消解 问题 自然 地 变 成 了 对 Bell 树 中 竞争 路 径 的 评分 。 

Bell 树 表示 法 有 一 个 很 好 的 特性 ， 每 次 链接 或 引入 的 次 数 对 于 所 有 可 能 的 假设 共 指 结果 
都 是 相同 的 。 这 使 得 它 对 “局 部 ”链接 或 引入 概率 的 排序 变 得 很 容易 ， 因 为 数量 是 相同 的 。 

Bell 树 表示 也 是 增 量 式 变化 的 ， 因 为 提 及 是 逐渐 添加 的 。 这 使 得 设计 一 个 解码 右 和 搜 
索 算 法 很 容易 : 共 指 模型 在 8.3.2 PER, 但 是 我 们 暂时 假设 ， 有 模型 可 以 为 链接 和 引入 
分 支 进行 评分 。 那 么 解码 一 个 文档 就 只 是 构建 其 中 提 及 的 Bell 树 ， 就 像 前 文 提 到 的 ， 然 后 
给 树 中 的 路 径 打 分 。 在 处 理 n 个 提 及 之 后 ， 我 们 得 到 一 个 深度 为 (n 一 1) 的 树 。 然 后 在 用 
下 一 个 提 及 扩展 树 之 前 ， 我 们 先 对 累计 分 数 低 于 某 指定 阐 值 (和 最 高 的 分 数 相 比 的 分 支 
PEAT YAK; 换 句 话说， 我 们 在 剪 枝 的 Bell 树 上 做 广度 优先 搜索 。 


8.3.2 共 指 模型 : 链接 和 引入 模型 
我 们 用 一 个 二 元 条 件 概率 模型 来 计算 激活 的 提 及 链接 到 受 关 注 不 完整 实体 的 概率 。 这 
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President Ben Ali Et (处 理 顺 序 中 的 提 及 ) 


Ins 4 让 CT 天 
= 
js [President, Ben Ali] 
i : (c2) 
Te = 


(a) * [President] [President, his] 
[Ben Ali] iN 


[Ben Ali] 
(b2) 
















(c3) 






[President] 
[Ben Ali, his] 


[President] 
[Ben Ali] (c5) 
his 
图 8-1 Bell 树 代表 实体 从 提 及 中 形成 的 过 程 。 提 及 在 [D] 中 是 指 一 个 部 分 实体 。 实 线 箭头 意 
味 着 一 个 提 及 链接 到 一 个 受 关 注 的 实体 ， 虚 线 箭 头 表 示 引 入 一 个 新 的 实体 。 这 里 的 提 
及 是 按 文中 出 现 的 顺序 来 处 理 的 号 


(c4) 


we Ze EAL FETA CL E MA AN SEES. SEXETESCUEBS PPA EK dE RO 。 
形式 化 来 看 ， 使 (mi: 1i) MAM PH n ERE. SORGE js: 代表 它们 在 文 
档 中 被 处 理 的 顺序 (文档 顺序 是 无 关 紧 要 的 )。e; 作 为 一 个 实体 ，g: imj EMEK i SSE 
fk; 的 映射 (多 对 一 )。 对 于 一 个 下 标 为 & RER OKK), WE: 
Pp oi he oh ri (8. 4) 
公式 (8.4) 为 对 应 m 的 已 建立 实体 的 下 标 集 合 GEBh=o). FHA 
E, = {e:t € DJ) 
上 式 为 已 建立 的 实体 集合 。 链 接 的 概率 为 
PCL | E,,mi A, = E) (8. 5) 
这 是 活跃 提 及 mi 与 受 关注 实体 e, 的 链接 概率 。 随 机 变量 A 从 集合 I 中 取 值 并 指示 哪 一 
个 实体 是 受 关 注 的 。L 是 二 值 的 ， 如 果 m 与 ei 链接 ， 则 取 值 为 1， 否 则 为 0。 
例如 在 图 8-1 F, M b2 到 c4 的 分 支 ， 活 跃 提 及 是 his， 在 处 理 his 时 已 经 建立 的 部 分 
sc (ki E; — ([President] , [Ben Ali]}, 关注 的 实体 是 [Ben Ali]. EXE P(L=1 | Es, 
his, A= 2) 来 度量 his 链接 实体 [Ben Ali] 的 可 能 性 。 
PCL | Ex» mx，Ax 二 t) 只 度量 ma 与 & 链 接 的 可 能 性 。 但 是 它 并 未 说 明 mmx 引入 一 个 新 实 
体 的 概率 。 幸 运 的 是 ， 引 入 的 概率 可 以 通过 公式 (8.50 的 链接 概率 计算 得 到 ， 如 下 所 示 。 
因为 引入 一 个 新 实体 意味 着 mu 与 其 他 任何 实体 不 存在 链接 Ei 的 关系 。 引 入 一 个 新 
实体 的 概率 P (L=0| E，mi)， 可 以 通过 以 下 公式 来 计算 
PCL= 0 | Ex mi) (8. 6) 
= S PO =0,Ay = £| Ex sme) 


t€ I, 


= 1— M P(A, = t| Ex,m)PCL = 1 | E, mi sAr = t) (8. 7) 


tel, 


公式 (8.7) 表明 引入 新 实体 的 概率 可 以 通过 连接 概率 P (L—0 | Ej, me, A= Rit 


eo ABA 8-1 中 c2 画 错 ， 已 改 为 虚线 箭头 。 一 一 译 者 注 
虽 ” 文 档 本 身 一 直 都 是 上 下 文 或 条 件 的 一 部 分 ， 这 里 省 略 以 简化 排版 。 
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算 ， 其 中 边际 概率 P CA,—£| Ej. m) 是 已 知 的 。 模 型 中 的 P (A= t| Ex, me) 也 可 以 解 
释 为 候选 实体 选择 模型 。 对 于 当前 提 及 m 和 已 创建 的 实体 集合 Er, P CA,— t| Eks m) W 
是 实体 e, 成 为 候选 实体 的 概率 。 
A P (Ap=t| Er, m) 直接 训练 模型 是 比较 困难 的 ， 因 为 有 随 着 提 及 持续 的 处 理 是 
不 断 增长 的 。 所 以 我 们 用 以 下 公式 近似 估计 P CA,—t| Ex, mi). 
] Zt-argmaxern P(L=1|B,m,A: = i) 
0 ”否则 
公式 (8.8) 并 不 是 对 P CA,— t | Ej, m) 近似 估计 的 唯一 方法 。 例 如 ， 我 们 可 以 
用 一 个 玉 的 均匀 分 布 。 我 们 试验 了 几 种 近似 的 方案 ， 包 括 均 义 分布 ， 但 公式 (8.8) Wit 
算 效 果 最 好 ， 所 以 我 们 采用 公式 (8. 8) 的 计算 方法 。 我 们 也 可 以 直接 训练 出 P (A= t | 
E,. mi). SAIS HH 2g Bell 树 中 的 路 径 评 分 。 问 题 在 于 到 大 小 是 可 变 的 ， 而 A MPRE, 
并 且 引 入 操作 取决 于 了 到 中 所 有 的 实体 ， 这 使 得 直接 训练 已 (A= t| Ex. me) 比较 困难 。 
用 近似 公式 (8.8), 公式 (8.7) 中 的 引入 概率 则 变 为 : 
PCL —0|E,,mj)—1-—maziei POL = 1| Ey mi A, = t) (B. 93 
链接 概率 (公式 (8. 500 和 近似 引入 概率 (公式 (8. 900. 用 来 为 Bell 树 中 的 路 径 打 分 。 
比如 ， 图 8-1 中 的 路 径 a 一 b2 一 c4 就 是 从 a 到 b2 的 引入 概率 和 从 b2 到 c4 链接 概率 的 乘积 。 
由 于 公式 (8.9) 只 是 一 个 近似 计算 ， 所 以 我 们 也 可 以 引信 一 个 常量 a 去 平衡 链接 概 
率 和 引入 概率 ， 那 么 真实 的 引入 分 数 就 成 为 : 
P= 01E an) = PE = 0 | Emy) (8. 10) 
如 果 a 二 1， 则 意味 着 添加 新 的 实体 会 受到 惩罚 。 因 此 ,a Xm" s| AE] (start penalty). a 
一 般 使 用 开发 集 调 整 ， 并 且 用 来 平衡 实体 漏 报 和 误 报 。 
模型 P (L| Er, m, A=) 依赖 于 所 有 未 完成 实体 E:， 这 也 有 着 非常 高 昂 的 复 洒 
度 。 链 接 一 个 提 及 mx 和 受 关注 实体 e: 时 ， 假 定 与 其 他 实体 无 关 也 是 合理 的 。 


Par = tl Exvm) = (8. 8) 


PCL -— l | E; s 7j As — t) (8. 11) 
ae POE =} | em) (8. 12) 
A maxP (L = Í | Et m.m, ) (8. 13) 


m e 


从 公式 (8.11) 和 公式 (8.12) 可 以 看 出 ， 除 了 受 关注 实体 e 外 的 其 他 所 有 实体 都 可 
以 假定 为 对 zx 和 e, 的 链接 没有 影响 。 公 式 (8.13) 进一步 假设 实体 - 提 及 的 分 数 可 以 通过 
最 大 提 及 对 的 分 数 获得 。 公 式 (8.13) 中 的 模型 和 Morton [47]. Soon, Ng 5 Lim [37] 
以 及 Ng and Cardie [38] 所 使 用 的 模型 比较 相似 ， 但 公式 (8.13) 可 以 包含 实体 级 的 特 
征 ， 因 为 e 也 是 条 件 的 一 部 分 。 


8.3.3 mAMRERD 
ARASH (8.23) 所 述 的 模型 
PCL | ersmm) = exp[ 9Aigiém mi 4L) + S)Ajh; Ce mi L) | 


SEA REDI 
ZCe, m.m) 

(8. 14) 
其 中 gi(m, m, LO EERIE, hile, m, L) 是 实体 级 的 特征 ， 因 为 它 是 由 实 
ik e, 和 提 及 xx 计算 得 来 的 。 实 体 级 的 特征 可 以 隐 含 地 捕捉 到 实体 PUKE Rm, ZA B5 TERI 
数 的 一 致 性 ; 提 及 对 特征 ， 从 另 一 种 意义 上 讲 ， 对 于 编码 词汇 特征 是 有 用 的 ， 如 字符 串 m 
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和 7 是否 字 面 上 匹配 。 正 如 Berger, Della Pietra, Della Pietra [17] 所 描述 的 ， 一 旦 最 
大 燃 模 型 特征 选 定 后 ， 最 佳 的 特征 权重 (2) 和 {Aj} 可 以 高 效 地 找到 。 

因为 实体 和 提 及 之 间 的 关系 可 以 通过 它们 的 特征 来 描绘 ， 好 的 特征 集 对 于 系统 的 性 
能 是 十 分 必要 的 。 共 指 模型 所 使 用 的 特征 被 归纳 为 几 组 ， 绝 大 部 分 特征 在 不 同 语言 上 是 
通用 且 可 移植 的 ， 然 而 某 些 特征 比如 词 干 匹配 特征 ， 是 用 来 描述 阿拉 伯 语 形态 学 相似 
BE BS: 

D 词汇 特征 只 针对 于 非 代 词 提 及 。 它 们 包括 两 个 提 及 的 完整 或 部 分 的 字面 匹配 、 首 
字母 缩 略 词 、 根 据 提 及 拼写 的 实际 配对 。 

2) 属性 特征 可 以 直接 从 训练 数据 中 计算 得 到 。 比 如 ACE 的 训练 数据 包括 了 实体 类 型 ， 
实体 子 类 型 ， 以 及 那些 可 以 用 来 描绘 同一 个 实体 中 提 及 的 提 及 类 型 信息 。 因 为 代词 是 一 个 紧 
密 联系 的 范畴 ， 我 们 提取 一 个 代词 的 性 、 数 、 所 有 格 和 反 身 性 并 传播 给 它们 所 属 的 实体 。 

3) 编辑 距离 用 来 计算 两 个 字符 串 之 间 的 距离 ( 即 两 个 提 及 的 拼写 )， 并 量化 这 个 距 
离 。 这 也 是 另 一 种 表征 提 及 之 间 相 似 度 的 方法 。 

4) 距离 特征 表示 两 个 提 及 之 间 间 隔 多 远 ， 或 者 相隔 词 元 、 句 子 或 提 及 的 个 数 。 

9) 词 干 匹配 特征 比较 两 个 提 及 之 间 的 词 干 。 这 些 特征 是 特别 为 阿拉 伯 语 设计 的 。 

6) 一 致 性 特征 是 在 一 个 提 及 和 实体 对 上 计算 的 。 它 们 用 来 检测 提 及 和 实体 间 性 和 数 
的 一 致 性 。 需 要 注意 的 是 ， 这 个 特征 集合 和 代词 的 性 和 数 的 属性 是 不 同 的 。 

7) 句法 特征 来 自 [48] 在 阿拉 伯 语 的 宾 州 树 库 [49] EVAR BS X485] E ^r Pra HB 
动 生成 的 句法 分 析 树 。 提 及 的 词性 标签 也 从 分 析 树 中 抽取 而 来 。 我 们 还 可 通过 检查 它们 在 
分 析 树 中 的 结构 关系 来 检测 在 同一 个 句子 中 的 两 个 提 及 是 否 为 同位 语 。 因 为 约束 理论 
[50] 很 好 地 说 明了 代词 消解 ， 所 以 一 组 特征 用 来 计算 代词 提 及 在 句子 范围 内 的 候选 先行 
词 是 否 在 管辖 语 域 内 。Luo、Zitouni [44] 详细 地 介绍 了 这 些 特征 。 

除了 这 些 最 基本 的 特征 ， 复 合 特征 可 由 基本 特征 结合 生成 。 比 如 ， 具 有 反 身 性 的 距离 
特征 的 代词 提 及 可 以 帮助 捕获 到 反 身 代词 的 先行 词 比 非 反 身 代 词 的 先行 词 更 接近 。 


8.3.4 共 指 消解 实验 


我 们 汇报 了 在 最 近 的 ACE 数据 上 [51] 的 实验 结果 S 。 数 据 集 包 括 了 599 个 丰富 多 
样 化 的 文档 ， 其 中 包括 新 闻 专 线 的 文章 、 博 客 、 世 界 性 新 闻 组 网 络 的 布告 、 广 播 新 闻 的 文 
字 稿 、 广 播 新 闻 的 对 话 、 电 话 交 谈 。 我 们 保留 了 每 个 文档 中 最 新 的 16% 的 内 容 作 为 测试 
集 ， 其 余 的 作为 训练 集 。 如 此 划分 后 的 文档 数 、 字 数 、 提 及 数 和 实体 数 的 统计 信息 制 成 表 
格 ， 如 表 8-4 Bp. 


X 8-4 ACE 数据 的 统计 信息 : 训练 集 和 测试 集中 的 文档 数 、 词 数 、 提 及 数 和 实体 数 


数 据 集 x 8 & 词 " fe hk OX X wk OX 
训练 集 499 253 771 46 646 16 102 
测试 集 100 45 659 8 178 2 709 
所 有 数据 599 299 430 54 824 18 811 


2008 年 的 ACE 值 是 在 评测 任务 中 的 官方 评分 ， 这 里 我 们 用 来 描述 我 们 共 指 系统 的 性 
能 。 它 的 具体 定义 可 以 通过 官方 评测 文档 呈 找到 。 因 为 ACE 值 是 一 个 有 权重 的 评测 指标 ， 


© 在 ACE2007 和 2008 的 评测 中 ， 没 有 新 的 训练 数据 发 布 ; 也 就 是 说 ，2005、2007、2008 使 用 同样 的 训练 数据 。 
© “官方 评测 文档 可 在 http://www. itl. nist. gov/iad/mig/tests/ace/2008/doc/ace08-evalplan. vl. 2d. pdf. 
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用 来 衡量 共 指 系统 的 相对 值 ， 又 因为 在 ACE 程序 中 权重 和 它 的 公式 每 年 都 会 变化 ， 所 以 
当 比 较 两 个 系统 时 知道 使 用 的 是 哪 一 年 的 评分 程序 是 非常 重要 的 。 更 值得 一 提 的 是 ，ACE 
值 对 一 些 特定 类 型 的 错误 是 不 敏感 的 ， 因 为 它们 的 权重 非常 低 〈 比 如 代词 错误 只 是 命名 错 
WHY 1/10). 

K 8-5 包含 了 上 述 提 及 的 测试 集 的 结果 ， 它 使 用 最 近 ACE08 的 评分 程序 : http:// 
www. itl. nist. gov/iad/mig//tests/ace/2008/software/ace08-eval-vl7. pl。 第 二 列 是 基于 
ACE08 值 的 下 测试 ， 最 后 一 列 是 官方 的 ACE 值 。 第 二 行 包 含 了 作为 共 指 系统 输入 的 标准 
提 及 的 结果 ， 最 后 一 行 对 应 于 使 用 提 及 检测 系统 的 结果 。 我 们 可 以 看 出 ， 给 定 标 准 提 及 
时 ， 共 指 系 统 可 以 得 到 非常 高 的 ACE 值 。 然 而 提 及 检测 系统 过 多 的 噪声 会 大 大 降低 系统 
性 能 ， 使 ACE 值 从 79. 8% 降 低 到 60. 396, 


X 8-5 使 用 ACE08 评分 的 共 指 消解 结果 : 第 二 列 是 B3-F 值 ，ACE08 值 是 官方 指标 


ft OX B3-F 值 ACE08 值 
标准 89.1 79.8 
He SLE 80. 2 60. 3 
8.4 AS 


这 一 章 ， 我 们 讨论 了 信息 抽取 中 两 个 十 分 重要 的 任务 : 提 及 检测 和 共 指 消解 。 用 一 
例子 详细 介绍 了 级 联系 统 的 实现 ， 这 个 系统 包含 了 一 个 基于 最 大 入 值 模型 的 提 及 检测 组 
件 ， 并 串联 了 一 个 基于 Bell 树 算法 的 共 指 消解 系统 。 提 及 检测 组 件 在 检测 提 及 时 把 它 看 作 
一 个 序列 标注 问题 ， 使 用 从 训练 数据 中 自动 抽取 的 词汇 、 名 法、 语义 特征 。 基 于 Bell 树 的 
共 指 消解 系统 通过 在 Bell 树 中 找寻 从 根 节点 开始 到 叶 节 点 的 路 径 来 寻找 文档 中 最 好 的 共 指 
结果 ，Bell 树 则 描述 其 假设 空间 。 一 个 实体 - 提 及 的 二 元 模型 用 来 对 路 径 中 的 每 一 个 分 支 
评分 。 这 样 一 个 统计 系统 的 好 处 就 是 它 是 数据 驱动 的 并 且 只 要 获得 语言 特定 的 信息 作为 特 
征 就 可 以 很 快 地 应 用 到 其 他 语言 。 

我 们 指出 提 及 检测 和 共 指 消解 可 以 用 一 个 联合 方式 来 解决 ， 这 是 因为 在 某 些 提 及 判断 
中 需要 共 指 消解 来 指导 (相反 也 成 立 )。 尽 管 在 实践 上 ， REG SERI LARES E Eu TU 
的 优势 ， 但 是 联合 系统 仍旧 值得 未 来 更 深入 的 研究 。 提 及 检测 和 共 指 消解 的 输出 为 未 来 深 
入 的 分 析 葛 定 了 基础 ， 比 如 说 第 9 章 中 讨论 的 关系 和 事件 抽取 。 它 也 可 以 直接 被 用 于 一 些 
应 用 中 ， 比 如 问答 (第 13 章 中 讨论 ) 或 者 机 器 翻译 系统 〈 第 10 章 中 讨论 )。 
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9.1 概述 


词语 在 世界 上 无 处 不 在 ， 并 且 这 些 词 语 越 来 越 多 地 以 电子 形式 储存 。 截 至 2008 年 ， 
世界 上 存在 了 超过 1 万 亿 个 互 不 相同 的 网 页 ， 这 个 数字 还 正在 以 每 天 超过 十 亿 的 数量 增长 
L1j， 而 且 每 个 网 页 中 都 至 少 包 含 一 些 文本 。 正 如 我 们 在 之 前 的 章节 中 所 了 解 到 的 ， 自 然 
语言 文本 充满 蚊 义 并 且 富 含 各 种 信息 ， 实 际 上 这 两 个 属性 也 是 互相 补充 的 。 有 了 这 么 多 电 
子 文本 文档 ， 人 们 对 于 能 够 处 理 这 些 自然 语言 文本 的 计算 机 系统 有 着 越 来 越 大 的 需求 ， 这 
样 的 计算 机 系统 需要 能 够 自动 地 将 含有 自由 形式 的 、 模 棱 两 可 的 文本 合成 更 加 为 准确 、 紧 
次 的 结构 化 的 表现 形式 ， 并 且 能 够 以 更 高 效 的 方式 来 访问 和 处 理 大量 的 文档 。 比 如 ， 一 个 
公司 需要 追踪 用 户 对 其 产品 的 反馈 信息 ; 一 个 政治 家 需要 了 解 他 的 选民 对 他 的 观点 态度 ; 
一 个 智能 的 分 析 器 需要 记录 特定 、 某 个 群体 或 者 某 个 组 织 的 人 的 行为 与 话语 。 

大 使 计算 机 能 够 接近 于 完全 理解 上 自然 语言 文本 的 内 容 ， 需 要 有 一 个 能 够 包含 句法 、 语 
义 、 语 用 ， 以 及 世界 知识 的 模型 ， 并 且 有 适当 丰富 的 意义 表达 方式 。 那 种 完整 的 理解 程度 超 
出 了 本 章 的 范围 。 本 章 中 我 们 探究 更 局 限 的 问题 ， 即 抽取 相关 的 信息 来 填充 一 个 与 每 个 特定 
任务 相关 的 事实 的 “数据 库 ”。 更 具体 地 说 ， 我 们 将 问题 定义 为 寻找 一 个 语 料 文本 中 的 所 有 
相关 实体 (在 第 8 章 中 已 经 详细 讨论 )， 找 到 这 些 实体 的 所 有 相关 属性 以 及 实体 间 的 所 有 相 
关 关 系 ， 并 且 将 这 些 信息 以 结构 化 的 方式 进行 储存 。 直 观 地 ， 一 旦 填充 了 事实 ， 我 们 的 数据 
库 就 可 以 通过 非常 简单 的 数据 库 查找 来 回答 下 面 几 类 问题 : 

。 在 特定 的 文档 或 文档 集中 提 到 的 人 或 实体 是 谁 ? 

。 一 家 特定 的 公司 里 有 和 多少 员 工 ， 并 且 他 们 的 名 字 是 什么 ? 

。 一 些 人 或 实体 之 间 的 关系 是 什么 ? 

。 在 一 个 文档 ， 或 者 一 系列 文档 中 提 到 了 哪些 事件 ? 

。 一些 特定 的 事件 在 什么 时 间 发 生 ? 

。 一 些 特定 类 型 的 事件 在 哪里 发 生 ? 

尽管 从 一 系列 文档 中 找 出 事实 来 填充 数据 库 的 目标 看 起 来 很 适中 ,但 两 个 广泛 信息 抽 
取 项 目 一 一 信息 理解 会 议 (Message Understanding Conference, MUC) 和 自动 内 容 抽 取 
(Automatic Content Extraction, ACE) [4, 5, 6,7] 的 有 限 的 成 功 表 明 ， 这 是 一 个 令 人 
却步 的 挑战 。 


9.2 关系 与 事件 

在 第 8 章 中 ， 我 们 了 解 了 如 何 识别 和 查找 文本 中 的 提 及 类 型 (参见 8.2 节 )， 以 及 如 
何 寻 找 提 及 共 指 的 内 容 (参见 8.3 节 )。 本 章 主 要 研究 如 何 寻找 实体 间 的 语义 关系 。 能 够 
处 理 这 种 任务 的 系统 通常 被 称 为 关系 抽取 系统 (relation extraction system)。 关 系 抽 取 这 
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个 术语 在 自然 语言 处 理 的 文献 中 有 几 种 含义 。 从 广义 上 看 ， 我 们 能 够 区 分 两 条 研究 的 主 
线 ， 第 一 条 《〈 [L8，9j) 主要 涉及 三 种 特殊 类 型 的 关系 抽取 : 

。 抽取 与 词汇 本 体 联系 在 一 起 的 关系 ， 比 如 部 分 -整体 关系 ， 上 下 位 关系 以 及 方式 关系 ; 

。 抽取 本 质 上 类 似 的 关系 ， 比 如 发 现 动词 1 和 动词 2 表示 的 是 相同 的 概念 ， 但 是 动词 


] 要 更 强 一 些 ; 
。 查找 相似 前 提 (similarity enablement)， 即 识别 动词 1 表示 的 行为 是 动词 2 表示 行 
为 的 先决 条 件 。 


研究 的 第 二 条 主线 解决 识别 潜在 的 异 构 实体 之 间 更 为 普遍 的 语义 联系 ， 比 如 探究 人 和 
公司 之 间 的 雇佣 关系 ， 疾 病 和 人 之 间 导 致死 亡 的 关系 ， 或 者 一 个 实体 〈 比 如 一 个 公司 ) 拥 
有 者 和 另外 一 个 拥有 者 之 间 的 关系 。 本 章 主 要 研究 第 二 条 线 ， 即 广义 类 别 的 关系 抽取 。 

比如 ， 假 设 我 们 需要 建立 一 个 多 语言 的 系统 ， 这 个 系统 每 一 次 都 能 够 识别 出 文本 中 
PERSON 实体 被 描述 成 一 些 其 他 实体 的 拥有 者 Cowner) 的 情况 。 这 种 以 及 许多 其 他 类 型 
的 语义 关系 通常 被 表述 成 一 个 句子 ， 因 此 在 文献 中 最 为 常见 的 研究 方式 是 建立 一 个 系统 来 
FRAJA (within-sentence) 关系 。 在 这 方面 ,我 们 希望 构建 一 个 能 够 分 析 已 经 识别 出 实 
体 提 及 的 句子 的 系统 ， 当 一 对 提 及 存在 时 ， 该 系统 能 够 识别 两 者 间 “ 拥 有 ”类 型 的 关系 提 
及 。 作 为 一 个 更 有 雄心 的 目标 ， 我 们 希望 和 一 个 系统 可 以 识别 实体 之 间 的 关系 而 不 用 考虑 
两 个 实体 是 否 是 在 同一 个 句子 中 被 提 到 。 然 而 ， 基 于 本 章 的 目标 ， 我 们 假设 两 个 实体 在 同 
一 个 句子 中 的 提 及 作为 它们 间 关 系 的 证 据 ， 即 使 其 中 一 个 或 者 两 个 实体 都 是 以 代词 的 形式 
出 现 (比如 “he owns it”， 其 中 “he” 表 示 的 是 PERSON XK, m “it” 表示 的 是 PER- 
SON 实体 所 拥有 的 公司 )。 

事实 上 ， 我 们 已 经 见 过 一 个 关系 抽取 系统 一 一 共 指 消解 系统 (coreference resolution sys- 
tem) ， 它 能 够 找到 文档 中 的 共 指 实体 提 及 间 “ 同 一 实体 ”的 关系 。 但 是 对 于 那些 牵涉 超过 两 
个 实体 的 关系 要 怎么 处 理 呢 ?” 当 关系 包含 一 个 或 多 个 实体 的 状态 改变 时 ， 我 们 称 为 事件 。 事 
件 抽取 系统 (event extraction system) 可 以 识别 出 具有 状态 改变 的 实体 的 集合 。 比 如 ， 
“Mary bought apples for $20” 这 个 句子 中 包含 了 事件 “bought” 以 及 三 个 实体 “Mary”、 
“apples”、“ $20”。 通 过 使 用 谓词 演算 ， 我们 可 以 用 三 元 谓词 来 表示 这 样 的 事件 ， 比 如 bought 
(Mary，apples，$20) ， 或 者 二 元 谓词 对 bought (Mary, apples) 和 paid (Mary，$20)。 当 
我 们 在 之 后 的 9. 6 节 讨 论 如 何 设 计 一 个 事件 抽取 系统 时 ， 这 两 者 的 区 别 就 显得 很 重要 了 。 


9.3 关系 类 别 


正如 同 提 及 检测 和 共 指 消解 ， 目 前 许多 关于 关系 抽取 的 工作 都 缘 于 国家 标准 与 技术 研 
究 所 (National Institute of Standards and Technology, NIST) 的 ACE 评测 L7j。 正 如 
8.2 节 讨 论 的 一 样 ，ACE 的 任务 包含 7 个 主要 类 型 的 实体 : 设施 (FAC)、 地 理 政治 实体 
(GPE), Ww A (LOC), d HELP CORGI; A (PER)、 交 通 王 具 (VEH) URW 
(WEA) ， 每 个 类 别 又 有 许多 子 类 别 ， 总 计 45 个 实体 类 别 。ACE 的 竞赛 要 求 系统 产生 丰富 
的 关系 集合 ， 并 分 成 7 个 主要 的 类 别 和 18 个 子 类 别 : 

e PHSY (physical): 一 个 空间 关系 ， 表 示人 处 于 或 者 靠近 设施 、 一 个 地 理 位 置 或 者 一 个 

地 理 政治 实体 ; 设施 处 于 或 者 靠近 一 个 地 理 位 置 或 者 一 个 地 理 政治 实体 ; 地 理 位 置 处 
于 一 个 更 大 范围 的 地 理 位 置 或 一 个 地 理 政 治 实 体 ， 或 者 也 可 能 是 一 个 设施 ;以 及 一 个 
地 理 政治 实体 处 于 或 者 靠近 另 一 个 地 理 政治 实体 。 它 的 子 类 别 是 LOCATED 和 NEAR, 
。 PART-WHOLE: 一 个 空间 关系 ， 表 示 一 个 设施 、 地 理 位 置 、 地 理 政治 实体 或 者 
组 织 是 另 一 个 设施 、 地 理 位 置 、 地 理 政 治 实体 或 者 组 织 的 一 部 分 。 关 系 子 类 别 
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GEOGRAPHICAL 体现 了 地 理 位 置 、 设 施 以 及 GPE 之 间 的 PART-WHOLE 关系 ; 
对 于 组 织 和 有 组 织 角色 的 GPE， 子 类 别 SUBSIDIARY 描述 了 论 元 间 的 组 织 
PART-WHOLE 关系 。 
PER-SOC (personalsociaD: 个 人 -社会 关系 ， 体 现 了 人 与 人 之 间 的 关系 ， 关 系 可 以 
是 BUSINESS 相关 的 或 者 基于 FAMILY 的 ， 也 可 以 是 LASTING PERSONAL 关系 ， 
比如 友情 。 因 此 PER-SOC 关系 有 三 个 子 类 别 来 区 分 这 三 种 情况 ， 偶 然 的 个 人 与 社会 
关系 不 在 ACE 的 考虑 范围 之 内 。 
e ORG-AFF Corganization-affiliation) ; 这 类 关系 是 关于 人 与 组 织 之 间 的 关系 。 一 个 
人 可 以 受 雇 于 一 个 公司 (EMPLOYED 类 型 ) 也 可 以 是 其 中 的 一 个 成 员 (MEM- 
BER 类 型 ) 。 一 个 特殊 种 类 的 成 员 或 者 雇员 是 从 属于 运动 组 织 (SPORT-AFFILI- 
ATION 类 型 ) 。 人 与 组 织 的 关系 可 以 既 不 是 它 的 成 员 也 不 是 它 的 雇员 ， 这 种 情况 
一 般 是 公司 创始 人 (FOUNDER)、 拥 有 者 (OWNERO 以 及 投资 人 CINVES- 
TORS-SHAREHOLDER)。 最 后 ， 当 人 们 作为 学 生 或 校友 时 可 以 从 属于 一 个 教育 
机 构 (体现 在 STUDENT-ALUMN 类 别 )。 
* GEN-AFF (general-affiliation, GEN-AFF): 一 些 人 与 组 织 、 地 理 政 治 组 织 的 隶 
属 关 系 或 者 组 织 与 地 理 政 治 实 体 的 隶属 关系 不 属于 之 前 提 到 的 类 别 ， 在 这 些 关系 
中 ， 我 们 识别 公民 身份 、 国 家 的 居住 权 、 宗 教 隶属 以 及 种 族 (所 有 这 些 都 属于 
CITIZEN-RESIDENT-RELIGION-ETHNICITY 的 ACE 子 类 别 )。 类 似 地 ， 一 个 
公司 也 可 以 在 一 个 特定 的 地 点 或 者 特定 的 国家 进行 商业 贸易 ， 这 些 体现 在 了 ORG- 
LOCATION 的 ACE 子 类 别 中 。 
* ART (artifact, ART): 描述 人 造 制品 的 使 用 者 、 发 明 者 、 生 产 者 以 及 这 些 人 造 
制品 之 间 的 关系 。 
。 METONYMY: 同一 实体 的 两 个 不 同方 面 的 关系 。 最 常见 的 例子 是 用 一 个 机 构 名 
来 指 代 这 个 机 构 的 设施 。 
当然 ， 系 统 内 部 可 能 产生 更 精细 的 关系 ， 并 且 映 射 成 所 需 关 系 集合 。 在 最 近 几 年 的 
ACE 评测 中 ， 这 是 很 常见 的 情况 。 除 了 关系 子 类 别 之 外 ，ACE 定义 了 一 些 其 他 属性 ， 比 
WHA (关系 是 肯定 的 还 是 否定 的 )、 时 态 (关系 是 发 生 在 过 去 、 现 在 还 是 将 来 ,或 者 这 
个 关系 没有 特定 的 发 生 时 间 )。 


9.4 将 关系 抽取 视 为 分 类 


9.4.1 算法 


在 这 一 节 中 ， 我 们 将 关系 抽取 看 作 一 个 多 元 分 类 问题 ， 在 算法 9-1 中 简要 地 展示 了 该 
方法 : 


算法 9-1 关系 抽取 算法 的 初始 版 本 ， 将 其 看 作 一 个 分 类 问题 


: procedure RelExtract d //| d 是 一 个 文档 
R—29 // RR 是 该 过 程 输出 的 关系 集合 
foreach 句子 s € d 具有 提 及 m1...mn do 

foreach # KX mi,m;,1«i« j n, do 

R — RU CLASSIFY (mi, mj) 

end 
end 
; return R 
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在 这 个 简化 的 情景 中 ， 我 们 使 可 能 的 分 类 标签 为 : 
S= { NONE, Phys. located, Phys. near,… } 
随 着 这 样 的 设计 ， 我 们 也 需要 将 分 类 器 的 输出 集 扩充 为 S 与 可 能 的 模 态 集合 M 和 可 
能 的 时 态 集 合 T 的 向 量 积 ， 即 SXMXT。 但 是 这 样 的 联合 模型 尽管 可 能 实现 ， 也 会 使 数 
据 过 于 碎片 化 ， 使 得 模型 很 难得 出 高 度 相 关 的 标签 。 意 识 到 这 个 潜在 的 数据 稀疏 问题 ， 
IBM [10] 和 其 他 地 方 的 系统 使 用 分 解 (factored) 或 级 联 模 型 (cascaded model), ， 通 过 一 
系列 的 二 元 和 多 元 分 类 来 执行 CLASSIFY 函数 (算法 9-1 中 的 第 5 AD: 


存在 二 元 性 在 m, 和 mj; 之 间 是 否 有 任意 类 型 的 关系 

类 别 多 元 假设 关系 成 立 ， 是 什么 类 型 

子 类 别 多 元 假设 某 类 关系 成 立 ， 是 什么 子 类 型 

模 态 多 元 肯定 、 否 定 、 可 能 或 者 未 指明 

时 态 多 元 过 去 、 现 在 、 将 来 或 者 未 指明 

顺序 对 于 用 谓词 如 描述 的 关系 ， 顺 序 是 pmi, mj) WE p (mj, mi) 


如 果 存 在 分 类 需 返 回 假 ， 则 所 有 整个 分 类 希 流 水 线 被 短路 ， 这 正 是 所 期 望 的 。 

最 后 一 个 分 类 器 决定 了 两 个 提 及 的 顺序 ， 好像 它 们 是 谓词 的 论 元 。 这 是 因为 一 些 关 系 (如 
BUY) 的 语义 依赖 于 它们 的 论 元 顺序 ， 顺 序 不 同 产 生 的 关系 可 能 就 不 同 。 考 虑 下 面 两 个 句子 : 

e Mary bought apples. 

* Apples were bought by Mary. 

两 种 情况 的 关系 都 是 bought (Mary, apples), Ht Mary 是 购买 者 而 apples 是 被 买 
的 物品 ， 而 不 管 文本 中 提 及 的 顺序 。 然 而 ， 对 于 许多 关系 类 型 ， 论 元 的 顺序 是 无 关 的 ， 比 
如 见面 关系 ， 只 要 两 个 人 见面 就 成 立 。 

将 该 问题 组 织 为 一 个 级 联 问题 当然 只 是 一 个 权宜 之 计 ， 但 这 是 否 是 唯一 的 方法 ?传递 
每 个 分 类 器 产生 的 一 个 最 优 输出 会 产生 一 个 问题 ， 即 错误 传播 。 例 如 ， 一 个 Type all at 
将 SUBSIDIARY 关系 误 分 类 ， 那 么 Subtype 分 类 器 也 没有 和 希望 改正 这 个 错误 。 解 决 这 个 
问题 的 方法 除了 实现 一 个 联合 模型 外 ， 就 是 在 过 程 的 每 一 步 中 产生 个 最 优 的 假设 ， 然 后 
在 最 后 选择 分 数 最 高 的 假设 。 


9.4.2 特征 


基于 分 类 的 关系 抽取 器 有 几 个 主要 的 类 别 特 征 ， 包 括 结 构 、 词 汇 、 基 于 实体 、 句 法 以 
及 语义 。 关 系 分 类 的 特征 一 般 捕捉 正在 分 析 的 提 及 对 的 特定 性 质 ， 或 描述 该 提 及 对 是 如 何 
在 句子 上 下 文中 出 现 的 。 

结构 特征 。 考 虑 下 面 的 句子 : 

In 1860 there was a four-way race between the Republican Party with Abraham Lin- 
coln, the Democratic Party with Stephen Douglas, the Southern Democratic Party with 
John Breckenridge, and the Constitutional Union Party with John Bell. 

在 候选 人 和 他 们 各 自 的 党 派 中 有 4 个 ORG-AFF ff] ACE 关系 。 在 race 和 1860 之 间 也 存在 
一 个 TimeOf 关系 (dE ACE 关系 )。 这 个 例子 描述 了 一 个 很 直观 的 概念 ， 即 在 某 种 意义 
上 ， 如 果 提 及 对 相隔 很 远 ， 那 么 它们 很 难 被 一 个 关系 联系 起 来 ， 而 两 个 相距 很 近 的 提 及 对 
通常 会 参与 到 同一 个 关系 当中 。 结 构 特 征 的 第 一 个 类 别 体现 的 是 提 及 的 距离 ， 可 以 用 一 些 
合适 的 方法 来 衡量 ， 比 如 中 间 词 元 的 数量 、 中 间 提 及 的 数量 ， 或 者 在 句法 树 中 两 个 提 及 之 
间 的 最 短路 径 长 度 。 当 前 考虑 的 提 及 对 之 一 或 两 者 与 其 他 提 及 有 关系 时 ,会 触发 男 一 类 的 
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结构 特征 。 为 了 能 在 一 次 迭代 的 解码 算法 中 使 用 ， 这 些 特征 必须 是 具有 因果 关系 的 ， 即 它 
们 只 有 在 其 他 关系 存在 时 才能 起 作用 ， 而 这 些 关 系 又 必须 能 由 解码 器 在 当前 提 及 对 间 产 生 
任何 关系 之 前 检测 到 的 。 比 如 ， 考 虑 句子 : Mary bought apples and pears; 解码 器 先 考 虑 提 
及 对 (Mary, apples), AJR SEH RX (Mary，pears)。 当 解码 到 后 面 的 提 及 对 时 ， 会 触发 
特征 FirstArgAppearsInBoughtRelation， 而 当 解 码 第 一 个 提 及 对 时 ， 不 会 触发 相关 特征 。 

词汇 特征 。Bob married Mary 和 Bob called Mary 这 两 个 句子 在 结构 上 是 相似 的 ， 但 
是 传递 了 不 同 的 信息 。 特 别 地 ， 第 一 个 句子 包含 的 是 ACE 中 PER-SOC. FAMILY 关系 的 
例子 ， 而 第 二 个 句子 不 包含 ACE 关系 PER-SOC. FAMILY, PER-SOC. BUINESS 或 
PER-SOC. LASTING-PERSONAL 中 的 任意 一 个 。 为 了 检测 出 关系 并 进行 恰当 的 分 类 ， 
除了 短 句子 本 身 外 还 需要 更 多 的 信息 。 结 构 特 征 还 不 足以 来 区 分 两 种 情况 ， 而 如 果 包 含 了 
词汇 信息 ， 系 统 就 有 可 能 做 出 正确 的 判断 。 词 汇 特 征 包 含 了 当前 分 析 的 提 及 中 一 些 或 全 部 
词 的 信息 ， 如 果 一 个 实体 是 命名 实体 ， 那 么 它 通常 还 会 伴随 着 一 个 实体 首 词 的 特殊 特征 。 
这 个 类 别 中 的 其 他 特征 所 包含 的 词汇 一 般 出 现在 分 类 出 的 提 及 的 两 端的 小 窗口 中 ， 以 及 在 
两 个 提 及 的 左边 、 右 边 或 者 中 间 的 所 有 动词 中 。 不 同 于 结构 特征 ， 词 汇 特征 会 大 幅度 地 提 
高 特征 空间 的 维度 。 因 此 ， 对 于 有 丰富 词法 的 语言 ， 即 便 是 英语 ， 也 通常 用 形态 分 析 器 或 
词 干 还 原 器 来 确保 忽略 词缀 。 

基于 实体 的 特征 。 考 虑 I went to France 和 J went to IBM 这 两 个 句子 ; 第 一 个 句子 包 
含 了 第 二 个 句子 中 没有 的 PHYS-LOCATED 关系 。 除 非 France 和 IBM 同时 出 现在 训练 集 
与 上 面相 似 的 句子 中 ， 否 则 单纯 依靠 结构 和 词法 特征 的 关系 检测 器 很 难 区 分 出 这 两 种 情 
况 。 然 而 ， 在 第 一 个 句子 中 ， 提 及 France 类 型 是 GPE， 角 色 是 LOCATION, 而 IBM 的 
类 型 是 ORG， 并 且 没 有 特定 的 角色 。 这 个 例子 暗示 了 提 及 对 的 特征 属性 的 重要 性 ， 比 如 
类 别 、 子 类 别 以 及 相应 实体 的 角色 ， 还 有 提 及 的 等 级 (BR. Ail. (Rid). PETA 
样 也 不 鼓励 系统 在 句子 France was ousted during the first round of the World Cup 中 寻 
找 LOCATION KA, AW France 这 个 GPE 在 句子 中 表示 的 是 一 个 球 队 的 角色 。 

句法 特征 。 这 个 特征 和 共 指 消解 系统 中 使 用 的 十 分 类 似 。 这 些 特征 自身 就 被 分 为 两 种 
子 类 别 : 基于 标记 的 和 基于 路 径 的 。 基 于 标记 的 特征 会 关注 与 当前 分 类 的 提 及 中 的 词 相 联 
系 的 非 终结 符 标记 ， 至 多 包括 词性 标记 。 词 性 标记 通常 是 词 的 直接 父 节 点 的 非 终结 符 。 基 
于 路 径 的 特征 更 加 细 化 ， 它 们 表示 正在 进行 分 类 的 两 个 提 及 的 中 心 词 的 最 短路 径 的 编码 方 
式 。 基 于 路 径 特征 的 例子 包括 : 

。 覆盖 了 提 及 对 的 最 小 子 树 的 根 的 成 分 标记 。 

。 根 节 点 的 子女 标记 列表 ;两 个 提 及 间 最 短路 径 上 所 有 或 选 定 的 成 分 标记 。 

。 当 两 个 提 及 在 同一 个 短语 、 名 词 短 语 、 句 子 中 时 和 触发 的 指示 函数 。 

。 检测 特殊 模式 的 指示 函数 ， 比 如 Metion1-PP, Hf PP 包含 了 Metion2 。 

。 一 个 用 来 显示 是 否 有 提 及 之 一 是 或 者 包含 最 小 覆盖 子 树 的 中 心 词 的 指示 。 

句法 特征 中 一 个 重要 的 类 别 是 从 依存 树 中 推导 而 来 ; 它们 包含 了 依存 树 连 接 提 及 范围 
(mention extent) 或 者 提 及 中 心 词 (mention head) 的 完整 或 者 缩减 的 路 径 。 这 些 路 径 都 
用 成 分 标记 进行 表示 ， 可 以 是 词汇 化 标记 ， 也 可 附带 额外 标记 。 

语义 特征 。 在 句子 Both have since left the embattled company 中 ， 提 及 both M com- 
pany 通过 ACE 关系 ORG-AFF 相 联 系 的 证 据 由 它们 的 语义 角色 简单 体现 [11]: 第 一 个 
提 及 是 动词 left 的 ARGO 角色 ， 而 第 二 个 的 角色 是 ARG]. 语义 特征 依靠 语义 角色 标记 来 
显示 两 个 提 及 之 间 的 连接 类 别 ， 比 如 ， 当 一 些 提 及 (被 句法 树 节 点 标签 覆盖 ) 是 同一 个 动 
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词 的 论 元 时 会 触发 时 ; AWE HERZ HP MiMi 7c hi A—TABAN hA. 

可 以 设计 额外 的 特征 ， 同 时 属于 多 个 类 别 。 覆 盖 了 提 及 对 的 最 小 子 树 的 中 心 词 便 是 一 
个 基于 句法 信息 的 词汇 特征 的 例子 ， 履 盖 提 及 对 的 最 小 VP 的 中 心 词 也 是 一 个 例子 。Men- 
tionl 是 离 Mention2 最 近 的 具有 实体 类 型 Typel 的 提 及 这 一 信息 是 一 个 混合 的 基于 结构 - 
实体 的 特征 ， 该 特征 在 预测 关系 的 存在 及 属性 时 十 分 有 用 。 

目 然 我 们 会 问 这 些 特 征 对 于 预测 和 标记 关系 能 起 到 多 大 的 帮助 。 尽 管 这 个 答案 与 关系 
的 特定 分 类 方法 以 及 应 用 的 领域 有 关 ， 但 基于 实体 的 特征 和 句法 特征 对 于 关系 检测 和 关系 
分 类 都 能 起 到 很 大 的 帮助 。 特 别 地 ， 依 存 特征 在 关系 抽取 领域 有 着 广泛 的 应 用 ， 其 至 超过 
了 后 面 将 要 描述 的 判别 性 分 类 的 范围 。Jiang 和 Zhai [12] 描述 了 一 个 能 系统 性 评价 英语 
中 用 于 检测 和 分 类 关系 的 多 种 特征 类 别 的 有 效 性 的 方法 。 
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前 面 章 节 和 定义 的 特征 定义 了 一 个 相当 大 的 特征 空间 ， 这 会 在 学 习 统 计 分 类 器 的 时 候 产 
生 维 数 灾 难 。 选 取 一 个 能 不 受 庞大 的 特征 空间 以 及 数据 稀 朴 问题 影响 的 分 类 器 才 是 明智 之 
选 ， 因此， 最 近 关 于 关系 抽取 的 研究 工作 都 依赖 于 最 大 炉 (MaxEnt) [13]、 支 持 向 量 机 
(SVM) [14]、 条 件 随 机 场 (CRF) [15]. 依赖 程 度 低 一 点 的 还 有 朴素 贝 叶 斯 [16」 和 机 
械 抽 取 器 (rote extractor) [17], 

最 大 炉 分 类 器 是 一 个 简单 的 指数 模型 。 用 (zx, y) 表示 训练 样本 ， 其 中 z 是 证 据 
(比如 一 个 提 及 对 和 它们 的 文档 )，y 是 独立 的 变量 Gon BRA. n dE on E DU R HE [Ra] 
关系 存在 与 否 、 指 示 如 关系 类 型 这 样 的 关系 属性 值 )。f(x，y) 表示 二 元 的 特征 函数 ， 例 
如 ， 当 第 一 个 实体 的 实体 类 别 是 PERSON， 而 第 二 个 实体 的 实体 类 别 是 ORGANIZA- 
TION， 并 且 两 个 提 及 之 间 没 有 关系 ， 那 么 f(x. y) 三 1。 我 们 可 以 使 用 前 一 节 摘 述 的 特 
征 来 建立 大 量 的 二 元 特征 函数 ， 对 训练 集 抽取 出 来 的 每 个 特征 及 每 个 特征 值 和 与 该 特征 值 
相关 的 被 预测 的 属性 的 每 个 观察 值 建立 一 个 特征 函数 。 使 用 递增 索引 ;Crunning index i) 
SEE SS Hh | OEE PH. RAR TT AE zc By 的 条 件 概率 : 


p 
ply | x) = ZP. Afi) 


其 中 分 母 是 称 为 配 分 函数 (partition function). BH — fe R., REA PER BS x X} 
CT oy 的 条 件 概 率 之 和 为 1。 权重 4; 可 以 通过 在 给 定 约束 下 最 大 化 训练 集 的 概率 获得 。 约 束 
条 件 为 : 单个 计数 的 边际 要 等 于 经 验 边际 〈 即 归 一 化 的 计数 ) 。 

有 两 个 主要 原因 使 得 最 大 炉 分 类 器 很 吸引 人 : 首先 ， 它 们 使 用 的 是 对 数 线性 模型 ， 它 
们 极其 简单 的 函数 形式 能 使 它们 对 于 数据 稀 朴 以 及 维 数 灾 难 具 有 重 棒 性 ; 其 次 ， 学习 一 个 
最 大 焙 分 类 器 可 以 被 看 作 一 个 概率 单纯 型 上 的 约束 优化 问题 ， 这 是 一 个 已 经 有 深入 研究 的 
iB, FF ACEC RH. MAKMOKBEA RMA. fü. Kambhatla [10, 18] 级 
KARHE BR KP RS. Kambhatla [18] 的 进一步 评论 指出 ，ACE 的 语 
料 库 中 进行 关系 抽取 主要 的 错误 源 于 遗漏 ; 关系 属性 分 类 器 的 错误 率 远 比 检测 阶段 要 小 。 
根据 我 们 的 经 验 ， 这 并 非 是 一 个 罕见 的 问题 ， 并 且 很 可 能 是 因为 大 部 分 存在 的 提 及 对 没有 
参与 进 同一 个 关系 而 造成 了 该 问题 。 作 者 通过 在 最 大 炉 分 类 器 之 上 加 入 一 个 重 抽样 层 
(bagging layer) [19] 来 解决 这 个 问题 : 先 从 原始 训练 集中 进行 独立 的 置换 采样 获得 几 个 


O ”参见 第 4 章 来 获取 对 语义 角色 标注 的 全 面 认识 。 
O 这 里 是 作为 分 类 器 的 最 大 炉 模 型 的 简单 描述 。 对 用 于 序列 分 类 问题 的 最 大 炉 模 型 更 详细 的 概述 请 见 8. 2 节 。 
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不 同 的 子 训 练 集 ， 然 后 再 从 这 几 个 训练 集中 训练 出 25 FRAKES CADET ERO 
进行 分 析 时 ， 所 有 的 分 类 器 都 参与 ， 然 后 用 它们 的 结果 进行 投票 。 如 果 至 少 5 个 分 类 器 参 
与 了 ， 系 统 就 接受 某 关 系 的 存在 。 实 验 结果 证 明 抽样 法 获得 了 7% 的 ACE 分 数 提升 。 我 们 对 
BAMA MAG: 最 大 信 分 类 器 适用 于 多 语言 的 关系 抽取 ， 使 用 的 是 不 局 限于 
获取 个 别 特征 值 的 特征 函数 ;在 实际 中 ， 如 9. 4. 2 节 描 述 的 组 合 特征 是 很 常见 的 情况 。 

SVM 分 类 器 是 个 二 元 分 类 器 ， 通 过 在 特征 空间 中 使 用 超 平 面 然后 对 不 同类 的 样本 进 
行 分 类 。 如 训练 数据 是 线性 可 分 的 〈 即 被 超 平面 分 割 )， 那 就 有 无 限 多 的 超 平 面 可 以 用 来 
分 割 数据 。SVM 的 一 个 明显 特征 就 是 选择 与 两 个 类 别 最 近 的 样本 都 有 最 大 距离 的 超 平面 。 
这 个 属性 使 得 SVM 有 着 比 其 他 基于 支持 向 量 的 方法 有 着 更 优 的 属性 。SVM 被 用 于 关系 抽 
取 有 两 个 主要 原因 。 首 先 ， 学 习 SVM 的 问题 可 以 被 看 作对 偶 的 空间 受 限 优 化 问题 ， 它 甚 
至 可 以 在 高 维 空间 中 高 效 解决 ; 其次，SVM 可 以 学 习 十 分 复杂 的 决策 面 〈 比 超 平面 更 加 
复杂 )， 它 将 特征 空间 隐 式 地 映射 到 更 高 维 的 空间 中 ， 在 此 空间 中 学 习 分 割 的 超 平面 ,再 
将 这 个 超 平面 映射 回 原始 的 空间 中 。 映 射 依赖 于 核 函 数 ， 它 本 质 上 是 一 个 满足 一 些 数学 性 
质 的 原始 空间 点 的 相似 性 度量 。 通 过 使 用 核 函数 ， 分 类 器 能 够 隐 式 地 解释 特征 之 间 的 相互 
作用 ; 比如 ， 一 个 平方 核 使 得 SVM 可 以 解释 特征 之 间 的 所 有 成 对 的 相互 作用 。 


9.5 关系 抽取 的 其 他 方法 


9.5.1 无 监督 和 半 监 督 方法 


基于 特征 的 有 监督 判别 式 方法 并 不 是 关系 抽取 的 唯一 方法 。 本 节 我 们 将 对 适合 进行 多 
语言 关系 抽取 的 技术 进行 一 个 综述 。 

有 监督 方法 的 一 个 显著 局 限 性 就 是 需要 一 个 人 工 构建 的 大 训练 语 料 。 只 有 选 定 的 语言 
才 有 公开 的 关系 抽取 训练 语 料 ， 比 如 带 标注 的 英语 、 中 文 、 阿 拉 伯 语 语 料 是 ACE 评测 提 
供 的 。 构 建 一 个 带 标注 语 料 的 代价 如 此 之 大 ， 使 得 无 监督 和 半 监 督 方法 变 得 更 有 吸引 力 。 

到 目前 为 止 ， 很 少 有 纯粹 的 、 用 来 解决 关系 抽取 问题 的 无 监督 方法 。Gonzdlez 和 
Turmo [20] 描述 了 一 个 基于 应 用 二 元 特征 的 集成 聚 类 方法 来 处 理 关 系 抽取 问题 。 基 于 集 
成 聚 类 的 方法 产生 了 一 个 混合 的 多 元 伯 努 利 分 布 ; 每 个 分 布 都 分 配 一 个 分 数 ， 使 用 协 方差 
矩阵 的 特征 值 之 和 作为 度量 ， 越 “紧凑 ”的 分 布 分 值 越 高 ; 每 个 训练 样本 分 配 了 一 个 分 
数 ， 分 数 是 通过 该 样本 属于 某 个 类 别 的 概率 的 聚 类 权重 计算 得 来 的 ; 通过 分 析 训 练 样本 分 
数 的 直方 图 可 以 找到 一 个 改变 点 〈 直 方 图 中 的 一 个 拐点 )， 从 而 可 以 用 它 作为 一 个 国 值 
新 的 提 及 对 也 用 同样 的 方式 进行 分 析 ， 那 些 分 数 高 于 靖 值 的 样本 就 会 被 认为 有 关系 相连 。 
在 选 定 的 ACE 关系 子 集 的 ACE 语料库 中 ， 与 标准 提 及 相对 比 ， 这 种 思想 和 傈 明 的 方法 获得 
T 56 W F fü. M [21] 有 监督 的 方法 的 63.2 的 F 值 相 比 ,已 经 很 高 了 。 

尽管 纯粹 的 无 监督 方法 具有 成 功用 于 关系 检测 的 潜力 ， 但 它们 不 适用 于 关系 分 类 。 妆 
只 有 小 型 的 带 标记 语 料 可 用 时 ， 研 究 者 可 以 通过 半 监 督学 习 方 法 [22] 将 它们 与 无 标记 的 
语 料 一 起 使 用 。 半 监督 的 一 个 常见 的 方法 是 擎 衍 ， 过 程 是 使 用 带 标 记 的 样本 来 猜测 临近 的 
未 标记 样本 的 标签 ， 之 后 将 其 添加 进 训练 语 料 中 。 擎 衍 应 用 于 关系 抽取 的 例子 可 以 在 
Chen 等 人 [23] 的 文章 中 找到 。 这 几 位 研究 人 员 使 用 了 标记 传播 算法 [24]， 它 是 一 个 基 
于 图 的 算法 ， 该 算法 将 提 及 对 表示 成 节点 ， 边 的 权重 则 是 用 两 个 提 及 对 的 相似 度 来 计算 。 
标记 从 带 标记 的 样本 迭代 地 传递 到 最 近 的 顶点 ， 从 而 保证 原始 带 标 记 的 样本 不 会 被 重新 进 
行 标 记 。 在 关系 检测 任务 中 ， 该 方法 的 性 能 在 只 有 1% 的 标注 数据 的 情况 下 可 以 得 到 下 = 
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58.5; 而 当 数 据 全 部 有 标记 时 ， 性 能 会 提升 至 下 ==71.1。 当 10% 的 数据 有 标记 时 ，F = 
63. 2。 而 对 于 关系 检测 和 分 类 ，F (ELA FUB 1% 的 带 标 记 数 据 时 的 39.0 上 升 到 了 所 有 数据 
都 标记 时 的 54. 6， 当 有 10 儿 的 标记 数据 时 ，F 值 为 43.6. 

而 Greenwood 和 Stevenson [25」 中 也 描述 了 类 似 的 方法 ， 它 依赖 于 从 依存 树 中 获得 
的 模式 (基于 依存 树 的 模式 的 使 用 下 面 将 会 进行 更 详细 的 讨论 )， 表 示 为 三 元 组 的 链 ， 其 
中 每 个 三 元 组 包含 了 一 个 词 、 该 词 的 词性 标注 以 及 与 其 父 动 词 的 关系 ， 和 依存 树 中 所 定义 
的 一 样 。 作 者 提倡 了 一 个 方法 ， 从 语 料 中 抽取 大 量 模式 ， 由 标注 人 员 提 供 有 意义 的 标注 模 
式 作 为 初始 种 子 集合 。 这 些 模 式 然后 与 一 个 相似 性 函数 一 起 来 查找 一 系列 与 已 标记 模式 类 
似 的 未 标记 模式 ; 然后 用 最 接近 的 带 标 记 样 本 来 对 这 些 未 标记 的 模式 进行 标记 ， 重 复 这 个 
过 程 。 在 MUC-6 数据 集 [2] 上 的 实验 结果 显示 ， 通 过 使 用 带 标 记 的 种 子 集 合 ， 半 监督 的 
方法 能 有 效 地 提高 了 F 值 ， 并 且 随 着 迭代 次 数 的 增加 下 值 还 会 提高 (在 本 例 中 为 190)， 
但 是 实验 结果 仍 不 如 那些 使 用 大 量 带 标记 训练 集 的 实验 。 

Ravichandran 和 Hovy [17] 提出 了 一 种 很 直观 的 过 程 ， 学 习 使 用 Web 捕捉 关系 的 表 
层 模式 。 他 们 先 提 出 了 由 已 知 存在 目标 关系 的 实体 对 组 成 的 查询 ， 进 而 识别 出 包含 两 个 实 
体 提 及 的 句子 。 假 设 这 些 句 子 可 以 描述 关系 ， 则 使 用 后 缀 树 构造 器 来 识别 涉及 这 些 提 及 的 
词法 模式 。 为 了 在 问答 系统 任务 中 评测 该 方法 的 性 能 ， 作 者 提出 了 一 个 过 程 。 首 先 构建 一 
个 由 实体 对 组 成 的 查询 ， 实 体 之 一 充当 问题 论 元 的 角色 ， 另 一 个 实体 充当 问题 答案 的 角 


O 色 。 然 后 ， 作 者 计算 包含 这 两 个 查询 论 元 的 模式 的 出 现 次 数 ， 以 及 包含 问题 论 元 的 模式 出 
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现 的 次 数 ， 不 考虑 问题 答案 在 这 个 模式 中 是 否 出 现 。 最 后 ， 该 方法 的 精确 度 可 以 用 这 两 个 
数值 之 比 来 计算 。Alfonseca 等 人 [26] 描述 了 另外 一 个 评价 机 械 抽 取 器 性 能 的 方法 ， 该 
抽取 器 是 根据 Ravichandran 与 Hovy 所 描述 的 无 监督 过 程 来 进行 训练 的 。 


9.5.2 BAK 


9. 4 节 中 描述 过 基于 最 大 炉 分 类 胡 以 及 其 他 生成 或 判别 式 分 类 器 。 而 最 近 受 到 广泛 关注 
并 且 可 能 适用 于 多 语言 关系 抽取 的 另 一 种 方法 是 基于 核 的 算法 。 这 些 方法 的 要 点 为 : 首先 是 
通过 抽取 合适 的 模式 来 描述 关系 ， 其 次 是 通过 子 模式 的 匹配 次 数 来 计算 模式 间 的 相似 度 。 直 
观 上 看 ， 如 果 句 子 中 参与 关系 的 提 及 是 十 分 接近 的 ， 那 么 描述 关系 的 模式 很 可 能 会 很 简单 ， 
而 复杂 度 会 随 着 提 及 间距 离 的 增长 而 急剧 上 升 。 即 便 是 对 涉及 提 及 间距 离 适 中 的 “长 距离 ” 
关系 ， 匹 配 整个 模式 也 会 因此 不 可 行 。 但 是 ， 需 要 指出 具有 足够 多 出 现 次 数 的 子 模式 也 是 很 
有 用 的 关系 指示 ， 并 且 匹 配 这 些 子 模式 对 于 检测 和 分 类 关系 而 言 也 许 已 经 足够 。 根 据 子 模式 
匹配 的 数量 ， 核 方法 可 以 高 效 地 描述 模式 间 的 相似 度 。 它 们 的 主要 吸引 力 在 于 ， 可 以 用 高 效 
的 计算 方式 来 计算 匹配 的 子 类 别 数量 〈 穷 举 方 法 随 着 模式 长 度 的 增加 呈 指 数 级 增长 )， 并 且 能 
够 很 容易 地 与 强大 的 判别 式 分 类 器 以 及 相关 方法 一 起 使 用 ，SVM [14] 和 投票 感知 机 [27] 都 
是 很 好 的 例子 。 这 些 方法 对 于 资源 贫乏 的 语言 更 具 吸引 力 ， 因 为 它们 一 般 只 依赖 于 有 限 数 量 的 
特征 ， 而 不 像 传 统 的 基于 分 类 的 方法 那样 需要 大 范围 的 异 构 特征 (heterogeneous feature), 

Zelenko, Aone 和 Richardella [28] 描述 了 一 个 文本 的 浅 层 句法 分 析 的 核 [29」 来 学 
习 文 本 中 的 PERSON-AFFILIATION 和 ORGANIZATION-LOCATION 关系 。 浅 层 句 法 
分 析 中 的 节点 有 类 别 和 角色 属性 ， 还 有 许多 其 他 属性 。 关 系 核 被 定义 为 一 个 匹配 函数 ， 决 
定 了 两 个 节点 是 否 匹 配 ， 也 是 一 个 相似 度 函 数 ， 使 用 这 些 节点 以 及 他 们 子女 的 属性 来 递归 
地 计算 两 个 节点 的 相似 度 。 

Culotta 和 Sorensen [21] 将 训练 集中 的 关系 实例 表示 为 扩展 的 依存 树 ; 他 们 通过 丰 


d 
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富 句 子 表示 扩展 了 Zelenko 等 人 的 工作 ， 提 出 了 一 个 更 一 般 化 的 框架 来 调节 特征 权重 ， 并 
上 且 采用 了 复合 核 。 复 合 核 是 树 核 和 词 袋 核 的 组 合 ， 将 树 看 作 一 个 特征 向 量 。 

Bunescu 和 Mooney [30] 提出 了 一 个 关系 核 ， 计 算 了 两 个 序列 之 间 相 同 词 的 子 序列 的 数 
量 ， 并 用 第 一 个 和 最 后 一 个 词 间 的 距离 来 加 权 。 作 者 将 该 核 与 SVM 学 习 包 一 起 使 用 ， 并 且 在 
两 个 不 同 的 数据 集 AImed 和 ACE 上 ， 显 示 出 该 方法 比 已 存在 的 基于 规则 的 系统 的 效果 有 提升 。 
作者 在 随后 的 论文 [31] 中 使 用 弱 监 督 设置 (weakly supervised setting) 来 扩展 核 方法 。 


9.5.3 实体 和 关系 检测 的 联合 方法 


联合 推理 是 最 近 才 研究 的 NLP 领域 ， 该 方法 可 以 同时 处 理 多 个 问题 。 特 别 地 ， 新 兴 
工作 的 目标 在 于 同时 抽取 提 及 和 关系 。 直 观 上 认为 ， 文 本 中 通常 会 传达 能 由 关系 或 事件 捕 
捉 到 的 信息 ， 因 此 ， 涉 及 候选 实体 提 及 关系 的 存在 是 该 提 及 存在 的 证 据 指示 。 反 之 ， 假 设 
实体 提 及 被 检测 出 来 ， 一 对 实体 提 及 间 的 关系 会 受 包括 提 及 检测 算法 生成 的 后 验 概 率 在 内 
的 实体 提 及 属性 的 影响 。 尽 管 这 些 领域 都 仍 在 发 展 初 期 ， 然 而 对 于 多 语言 关系 抽取 却 具 备 
很 大 的 吸引 力 ， 尤 其 是 对 于 资源 贫乏 的 语言 ， 现 有 的 研究 方法 得 到 的 结果 并 不 理想 ， 但 联 
合 推理 可 以 在 缺乏 额外 资源 的 情况 下 提升 性 能 。 


9.6 事件 


从 广泛 意义 上 来 看 ， 事 件 表示 能 用 自然 语言 文本 描述 的 世界 中 任何 状态 的 变化 。 事 件 
抽取 是 指 通 过 使 用 任意 算法 来 抽取 出 该 状态 变化 的 结构 表示 ， 尤 其 包含 了 参与 的 实体 。 典 
型 地 ， 一 个 词 ， 一 般 为 动词 ， 表 示 了 状态 的 变化 ， 而 动词 的 论 元 通常 是 参与 事件 的 实体 。 因 
此 事件 可 以 被 看 作 关系 的 一 般 化 ， 是 实体 和 单一 触发 器 〈 典 型 地 仍 是 动词 ) 的 关系 集 。 

在 2004 年 的 DARPA ACE 评测 [32] 上 , 参 
加 的 系统 被 要 求 找到 事件 的 5 个 主要 类 别 ， 识 别 出 ee 
7 个 不 同类 别 的 实体 ， 正 如 表 9-1 所 示 。 重 要 的 是 ， ETATIS 
其 中 有 可 能 有 同 个 事件 中 同 个 类 别 中 的 多 个 实体 。 -Ea MAIO 
Lean, AJF The criminal destroyed the car and the 村 让 或 占有 或 控制 (GIV) 
building 中 ，car 和 building 都 应 该 被 标记 为 对 象 。 移动 (MOV) 

事件 的 概念 在 ACE 2005 的 评测 [6] 中 被 精 _ 智 能 体 的 交互 _INT) 

细 化 。 事 件 触发 器 的 概念 被 具体 化 了 Us Mie wel 2 Si UR E E 
器 检测 从 来 不 是 评测 度量 标准 的 一 部 分 )， 而 抽取 ”一 mn 一 

出 的 事件 类 别 也 更 为 具体 ， 参 与 的 实体 类 别 也 是 Objet 参与 事件 的 实体 

一 样 ， 如 表 9-2 所 示 。 评 测 指 南 将 事件 限制 为 铝 Source 原始 位 置 ( 仅 针对 MOV 和 GIV) 
子 中 使用 动词 的 那些 明确 的 提 及 。 从 这 方面 来 看 ，， Tere RACE (KIM MOV fI GIV 
ACE 事件 抽取 十 分 类 似 于 第 4 章 描述 的 语义 分 析 Us ARRE 

的 任务 。 实 际 上 ， 这 可 以 被 认为 是 定向 的 、 实 际 Other 其 他 参与 角色 

的 语义 分 析 应 用 。 


表 9-1 ACE 2004 事件 抽取 任务 


表 9-2 ACE 2005 中 的 事件 类 型 和 子 类 型 


类 型 T Xx m 
Life 出 生 、 结 婚 、 离 婚 、 受 伤 、 死 亡 
Movement 交通 
Transaction 转让 所 有 权 、 转 让 金钱 


Business 开 从 司 、 合 并 公司 、 宣 布 破产 、 关 闭 公司 
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(AE) 
类 型 | T 类 型 
Conflict 攻击 、 示 威 
Contact 见面 、 打 电话 
Personnel 开始 位 置 、 结 束 位 置 、 任 命 、 选 举 
Justice HAR. BRE. HIN, BRP. ea. ASE. BAL. TK. TI. SME. DCSE. Lif 


9.7 事件 抽取 方法 


对 于 一 个 句子 中 的 事件 抽取 有 两 种 主要 的 方法 。 第 一 种 方法 ， 由 IBM、 纽 约 大 学 
[33] 以 及 阿姆斯特丹 大 学 的 David Ahn [34」 所 探索 的 基于 流水 线 的 方法 : 首先 有 一 个 
触发 器 检测 系统 能 够 寻找 和 8 个 目标 事件 类 别 一 致 的 动词 ， 然 后 其 他 系统 尝试 寻找 与 事件 
角色 相 一 致 的 提 及 。 更 具体 地 ， 典 型 的 分 类 过 程 如 下 所 示 : 

1) 触发 器 识别 。 

2) 论 元 识别 。 

3) 论 元 归属 分 配 。 

4) 事件 共 指 。 

在 纽约 大 学 的 系统 中 ， 融 合 了 手写 的 局 发 方法 以 及 一 些 机 器 学 习 的 元 素 。 针 对 前 三 个 
任务 ，Ahn 对 比 了 基于 记忆 的 学 习 [35] LA E Ar 2S A, BE Y FH BAS. 
IBM HARE —1- FE25 "P FH TRAE. ， 在 第 四 个 任务 中 使 用 了 局 发 式 方法 。 

IBM、 纽 约 大 学 、Ahn 和 其 他 人 使 用 的 特征 都 与 用 来 捕捉 关系 的 特征 很 相似 ， 原 因 也 
很 合理 ， 因 为 事件 抽取 任务 中 使 用 的 流水 线 方法 与 关系 寻找 中 的 很 类 似 ， 在 关系 寻找 中 每 
个 关系 的 一 端 即 为 事件 触发 器 。 大 部 分 的 特征 类 别 都 是 独立 于 语言 的 ， 当 然 基于 英语 的 词 
汇 层 次 体系 WordNet®? 的 特征 是 个 显著 的 例外 。 然 而 ， 寻 找 触 发 器 更 类 似 于 提 及 检测 而 不 
是 关系 检测 ， 因 此 ， 更 常见 的 方法 是 通过 位 置 和 词法 特征 使 用 提 及 检测 系统 。 比 如 ，IBM 
系统 简单 地 探索 了 带 标记 的 数据 并 且 运 行 了 它 的 提 及 检测 系统 ， 将 提 及 检测 看 作 是 使 用 
BIO (开始 、 内 部 、 外 部 ) 标签 集 [37. 38] HERA ich a. 

论 元 识别 和 分 类 可 以 看 作 是 两 个 分 解 的 问题 ， 正 如 Ahn 的 系统 中 实现 的 一 样 ， 或 者 
看 作 单 个 的 分 类 步 又， 或 者 像 [BM 模型 里 的 方法 。 在 这 两 种 方法 中 ， 每 个 提 及 被 作为 触 
发 器 可 能 的 论 元 独立 考虑 。IBM 通过 从 左 到 右 的 方式 分 类 ， 提 及 细 化 了 这 个 方法 〈 句 子 前 
面 的 提 及 比 句子 后 面 的 提 及 先进 行 分 类 )， 后 面 的 分 类 可 将 前 面 的 作为 条 件 。 这 就 是 贪心 
优先 (greedy best-first) 解码 策略 。 

第 二 个 主要 的 方法 是 由 BBN [39] 发 现 的 ， 使 用 初始 的 处 理 (使 用 机 器 学 习 、 局 发 式 
或 者 两 者 进行 训练 ) 来 提出 整个 事件 一 一 触发 器 和 他 们 的 已 标记 论 元 ， 然 后 使 用 分 类 需 来 
决定 输出 的 事件 。 这 个 方法 受 结构 化 预测 问题 的 重 排序 方法 [40] 的 局 发 ， 也 与 该 方法 很 
类 似 ， 正 如 在 3.5.3 节 描 述 的 。 所 有 的 事件 分 类 器 都 是 使 用 有 监督 方法 训练 而 成 的 ， 对 给 
定 句 子 的 给 定 触发 器 ， 通 过 使 用 一 个 单 趟 事件 “提议 ”算法 ， 能 够 生成 许多 事件 候选 。 该 
单 趟 算法 为 每 个 事件 生成 一 个 分 数 ， 如 果 候 选集 中 分 数 最 高 的 事件 不 是 该 触发 硕 的 真实 事 
件 ， 那 么 真实 事件 就 会 被 添加 到 训练 集中 的 正 类 训练 样本 中 (通常 用 1.0 标记 )， 而 分 数 
最 高 的 候选 就 会 被 添加 到 负 类 训练 样本 中 (通常 用 一 1.0 标记 )。 这 样 ， 就 可 以 学 习 出 一 


O ”除了 英语 ， 其 他 语言 可 用 的 类 似 WordNet 的 资源 是 比较 少 的 。 如 果 你 正在 开发 一 个 关系 或 者 事件 抽取 系统 ， 
建议 去 寻找 与 你 系统 使 用 语言 相关 的 词汇 资源 。 
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个 超 平 面 来 区 分 单 趟 系统 产生 的 候选 事件 。 和 很 多 结构 预测 重 排序 文献 一 样 ，BBN 使 用 
了 一 个 类 似 感 知 机 的 分 类 器 来 学 习 超 平面 。 

这 个 方法 的 优势 在 于 它 考虑 了 事件 实体 相关 的 特征 : fib de DARE BS BUR T bio BY E 
元 。 相 比 之 下 ， 流 水 线 方法 也 考虑 了 每 个 独立 的 论 元 或 者 只 查找 之 前 产生 的 论 元 ， 并 且 分 
类 需 只 有 一 个 最 优 和 输出。 这 个 算法 的 缺点 在 于 解码 策略 稍 显 复杂 。 


9.8 A 


抽取 事件 的 初始 工作 集中 于 独立 地 处 理 每 个 句子 。 将 事件 提 及 归结 成 事件 一 般 用 一 个 
简单 的 过 程 来 解决 ， 通 过 局 发 式 地 查找 匹配 的 触发 器 和 论 元 ， 并 且 充 分 利用 已 经 实现 的 共 
指 消解 。 随后， 出 现 了 一 个 研究 思路 ， 通 过 利用 超 句 信息 来 帮助 事件 抽取 ， 有 两 种 策略 。 

Ji 和 Grishman [41] 从 “每 个 语 篇 一 个 意义 ”的 限制 [42] 引申 出 “每 个 主题 类 一 
个 意义 ”的 限制 ， 其 中 主题 类 是 同样 主题 的 文档 的 集合 。 思想 是 ， 提 到 事件 或 者 与 主题 相 
关 的 词语 可 以 清楚 地 表示 文档 集中 的 事件 。 所 以 要 分 类 的 事件 提 及 ， 包 括 触发 器 及 其 论 
元 ， 要 与 其 他 在 同一 个 主题 类 别 中 的 触发 器 和 论 元 相 一 致 。Ji 和 Grishman 使 用 了 一 个 开 
源 的 文档 搜索 引擎 一 一 INDIR [43] 来 收集 与 目标 文档 主题 相关 的 文档 ， 然 后 再 对 路 文 档 
概率 使 用 人 工 调 节 权 重 来 追求 局 部 决策 的 一 致 性 。 在 ACE 事件 抽取 任务 中 ,使 用 了 统计 
一 致 性 策略 后 ， 能 在 触发 器 分 类 上 获得 7. 6% 的 绝对 下 值 提 升 ， 而 基准 系统 对 于 论 元 分 类 
获得 了 6% 的 绝对 下 值 提升 。 

在 句子 之 外 的 相关 工作 中 ，Liao 和 Grishman [44] 发 现在 主题 类 文档 中 ， 不 仅 文 档 
中 的 触发 需 对 于 文档 和 文档 的 主题 分 类 是 一 致 的 ， 其 他 事件 类 型 跟 目 标 事件 类 型 也 有 很 强 
的 关联 。 这 样 ， 文 档 中 其 他 事件 类 型 的 存在 就 可 以 为 目标 事件 类 型 提供 很 强 的 指示 。 比 
如 ， 作 者 找到 了 Attack, Transport 和 Injure 事件 通常 和 事件 Die 同时 出 现 ， 它 们 的 相关 
系数 超过 了 0. 3。 利 用 这 些 事 件 之 间 的 一 致 性 ， 与 基准 系统 比 ， 它 们 在 触发 右 分 类 上 获得 
T 9.0% 的 绝对 下 值 提 升 ， 而 对 于 论 元 分 类 则 获得 了 8% 的 绝对 下 值 提升 。 


9.9 事件 匹配 


信息 抽取 尤其 是 事件 抽取 的 目标 通常 是 把 感 兴 趣事 件 记 录 到 数据 库 中 ， 但 这 不 是 信息 
抽取 技术 唯一 的 用 途 。 对 于 尝试 回答 开放 式 问 题 ， 尤 其 是 能 够 处 理 答案 不 止 一 个 的 问题 的 
问答 系统 ， 信 息 抽取 系统 能 够 帮助 产生 有 价值 的 句子 级 别 的 信息 。 这 种 类 型 的 系统 会 在 第 
14 章 中 详细 描述 ， 这 里 我 们 会 描述 一 些 子 问题 ， 即 在 已 有 事件 描述 的 情况 下 ， 在 语料库 
的 句子 中 查找 同样 包含 那个 事件 的 描述 。 | 

Bikel 和 Castelli [45] 开发 了 一 个 二 类 分 类 器 ， 将 事件 和 句子 的 描述 作为 输入 ， 如 果 
句子 中 包含 这 个 事件 的 描述 则 返回 真 ， 否则 返回 假 S 。 他 们 选择 使 用 了 平均 感知 器 算法 
[27]， 并 且 选 择 了 两 种 类 别 的 特征 用 于 分 类 器 的 训练 。 

第 一 类 特征 是 低级 特征 (low-level feature) ， 其 中 包含 词汇 特征 (lexical feature) 和 
提 及 匹配 特征 (mention-matching feature). 。 词 汇 特 征用 来 衡量 事件 描述 和 句子 中 同时 出 
现 的 词汇 的 百分比 。 为 了 能 够 使 用 二 元 特征 函数 ， 这 个 百分比 被 放 人 5 TK. LO, 
0]. €0, 0.33]. (0.33, 0.66], (0.66, 0.99], (0.99, 1.0]. 3f H TE 8E TRAF E 
造 一 个 特征 函数 。 如 果 一 个 提 及 同时 在 事件 描述 和 句子 中 出 现 ， 那 么 提 及 匹配 特征 就 是 


© Bikel 和 Castelli 也 是 本 章 的 作者 。 
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二 元 特征 函数 。 每 个 提 及 类 别 都 创建 一 个 这 样 的 二 元 特征 (了 解 更 多 提 及 检测 的 内 容 参 
见 第 8 章 )。 

第 二 类 的 特征 是 高 级 特征 (high-level feature) ， 利 用 了 语料库 中 句子 和 问答 的 依存 句法 
分 析 (参见 第 3 章 ) 。 就 我 们 的 目的 而 言 ， 我 们 对 句子 w=<, ans ，…， 凡 二 定义 了 一 个 依存 
树 r=<V, E, r>, RK'BV-—(lL-ekR), E—(G, 7):wi Æw; 的 子 节点 }，7rE (1, hio, 
是 根 节 点 的 词 。 不 使 用 节点 只 是 简单 句子 中 的 词 的 标准 依存 树 ， 模 式 中 每 个 单词 w; 关联 
一 个 词性 标注 +;、 一 个 形 元 或 者 词根 m (如 果 w 没有 变形 就 是 它 本 身 )， 一 个 非 终 结 符 标 
签 集 Ni ， 该 词 的 同义词 集 Si ， 以 及 一 个 规范 提 及 cm(i)。 更 形式 地 ， 我 们 让 句子 中 的 每 个 元 
素 成 为 一 个 6 元 组 wi — — us; t; mi Ni Sisemi) 过。 在 这 种 情况 下 的 依存 树 是 由 中 心 词汇 化 
(head-lexicalized) 的 成 分 树 推导 而 来 ， 中 心 词汇 化 意味 着 一 个 中 心 词 可 以 关联 多 个 非 终 结 符 
标签 ， 这 也 是 为 什么 Ni 是 一 个 集合 而 不 是 单一 的 非 终 结 符 。 单 词 rw 的 规范 提 及 cm(i) 是 这 
个 单词 最 长 的 名 字 提 及 ， 以 防 该 词 是 一 个 代词 而 与 同一 个 文档 中 的 其 他 提 及 共 指 。 

模型 中 高 级 特征 利用 了 依存 关系 (dependency relation). 的 传递 闭 包 ， 即 由 依存 句法 
分 析 产 生 的 中 心 词 -修饰 词 关 系 。 我 们 可 以 在 理论 上 将 这 个 中 心 词 -修饰 词 关 系 看 作 一 个 集 
合 论 的 关系 ， 用 aRb 表示 ， 句 子 中 a 是 中 心 词 b 的 修饰 词 ，R 表示 修饰 关系 。 比 如 在 一 个 
短 句 John saw Mary 中 ， 我 们 可 以 有 Mary R saw。 从 理论 上 看 ,我们 可 以 观察 到 所 有 关 
系 的 传递 闭 包 (transitive closure), XF Va, b, c: (aRbAbRc) 二 aRc。 假 如 我 们 有 一 
个 稍 长 的 句子 John saw someone talking to Mary。 在 这 种 情况 下 ， 对 它 的 句法 分 析 是 : 


ao ne ee i ee NR c 
John Saw someone talking to Mary 
我 们 可 以 有 中 心 词 -修饰 词 的 关系 : 
e talking R saw 
e to R talking 
e Mary R to 
等 ， 然 而 如 使 用 传递 闭 包 ， 


Har TN ^ nmm d P ORBE. | j 
John saw someone talking to Mary 


我 们 也 可 以 包含 Mary R saw? 。 在 两 个 句子 中 ，John R saw 都 存在 ， 因 此 John 也 是 
主动 词 saw 的 一 个 修饰 词 。 

更 形式 地 讲 ， 如 果 已 是 依存 句法 分 析 的 子女 (child-of) 关系 ， 那 我 们 将 五 作为 五 的 
传递 闭 包 ， 它 是 后 代 (descendant-of) 关系 。 因 为 我 们 最 终 尝 试 构建 一 个 模型 来 决定 一 个 
事件 描述 e 是 否 在 句子 s 中 提 到 。 我 们 用 包 表 示 事 件 描 述 中 的 后 代 关 系 ， 用 EGER Tn 
出 现 的 后 代 关系 。 高 级 特征 实质 上 计算 EMELIES ES., TAMRE, REX 
了 一 对 匹配 函数 ， 使 得 我 们 可 以 决定 一 个 依存 对 d. = (d, dde) CE ER EM F d. = 
(d,.d.d,.a) € E,, HP d.d 表示 依存 对 的 后 代 而 da d 表示 的 是 祖先 。 第 一 个 匹配 函数 是 


O ”这 种 关系 类 型 也 是 语言 学 中 提 到 的 简单 支配 关系 (dominance relation), 
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检测 依存 对 d. 的 两 个 后 代 是 否 相 等 而 第 二 个 匹配 函数 match。 是 用 来 检测 两 个 祖先 是 否 相 同 。 
matcha (de sds) = (ma.d = ma.a) V Cem(d,. d) = cm(d,. d)) 
match, (d, sds) = (ma.a = ma.a) V Cem(d,. a) = em(d;. a)) 
X P+ UU Be p CE BH. Cum Re I EXCEL TCR BCMA A lS ER XLI EUR. AB 
么 它们 就 是 相等 的 。 最 后 ， 对 于 两 个 后 代 d。 和 4,， 我 们 定义 了 一 个 全 局 匹配 函数 : 
match(d,,d,) = matchg(d.,d,) A match, (d,,d,) 
如 果 match(d., d,) 返回 错误 ， 则 de, di HEFRBW e] S6 E ETT SE 38 25 9| B5 SH 
性 测试 : 
synmatch(d, sds) = (Sa.a N Saa AW) A (Sa.a N Saa FD) 
# 9-3, WF Bikel 和 Castelli [45]， 展 示 了 模型 中 对 于 例子 事件 描述 e = Abdul Halim 
Khaddam resigns as Vice President of Syria 和 句子 $s 二 Theresignation of Khaddam was 


abrupt 使 用 的 特征 类 别 。 
模型 中 最 后 一 个 特征 类 别 是 基于 依存 集合 E。 和 E; 上 量化 核 函 数 的 值 : 
KOE ,hy = > (A(d.) * Ad D 


(d, d.) € EXE :match(d, ,d,) 
其 中 A((i,7)) BRAM c 中 节点 7 到 节点 7 BUERTSEB EI. KPA S E UI E VU kK 
存 集 E。 和 EE'; 之 间 的 整体 距离 。 
X 9-3 依存 匹配 特征 类 型 ; 实例 特征 里 xE {m，s}， 取 决 于 依存 匹配 是 因为 
match(d., ds) 返回 真 还 是 因为 同义词 集 匹 配 synmatch( de, d.) 


特征 类 型 x A "oiu 
Morph bigram x-resign-Khaddam fs t (EU. FH 
Tag bigram x- VBZ-NNP 
Nonterminal x-VP-NP 所 有 对 来 源 于 NXN; Gj) EE, 
Depth x-eventArgHeadDepth=0 EE 深度 为 0 因为 resign 是 事件 的 根 


通过 使 用 依存 关系 的 传递 闭 包 ， 模 型 获得 了 更 强大 、 更 一 般 的 方法 ， 能 够 匹配 事件 描 
述 在 句子 中 出 现 的 方式 。Bikel 和 Castelli 在 一 个 只 有 3546 个 样本 的 训练 集 上 训练 了 这 个 
模型 ， 并 使 用 了 一 个 有 465 个 样本 的 小 型 开发 测试 集 ， 获 得 了 66.5464 Ff, BEE, 
他 们 可 以 通过 调整 模型 来 牺牲 精确 率 提 高 召回 率 ， 反 之 亦 然 。 


9.10 事件 抽取 的 未 来 方向 


正如 本 章 刚 开始 描述 的 一 样 ， 事件 抽 取 十 分 类 似 于 语义 分 析 和 语义 角色 标注 。 这 两 项 
任务 都 热衷 于 抽取 谓词 - 论 元 结构 。 但 是 对 于 事件 抽取 ， 目 标 限 制 于 预先 定义 的 谓词 类 别 
集 。 随 着 更 加 复杂 的 语义 分 析 系 统 的 出 现 ， 我 们 可 能 看 到 这 两 种 关于 谓词 - 论 元 提取 方法 
的 融合 。 特 别 地 ， 带 标记 资源 如 PropBank [46] 和 NomBank [47] 的 可 用 性 意味 着 我 们 
可 以 建 模 更 一 般 化 的 谓词 - 论 元 抽取 ， 这 样 我 们 就 可 以 把 特殊 事件 抽取 看 作 过 滤 问 题 ， 而 
不 是 单独 的 建 模 问题 。 此 外 ， 如 果 目 标 是 回答 问题 ， 正 如 我 们 在 前 一 节 中 见 到 的 ， 那 么 这 
样 的 过 滤 可 以 当 需 要 时 才 做 。 


9.11 BS 
本 章 我 们 回顾 了 文本 中 关系 和 事件 抽取 的 主要 方法 。 通 过 依赖 于 低级 组 件 如 词性 标注 
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人 种、 句法 分 析 器 、 提 及 检测 组 件 以 及 共 指 消解 系统 等 提取 的 特征 ， 关 系 和 事件 能 够 组 成 信 
县 抽取 工具 中 的 高 级 组 件 。 关 系 和 事件 抽取 系统 都 依赖 于 词汇 特征 ， 这 些 特 征 提供 了 丰富 
但 是 潜在 稀疏 的 、 有 用 的 区 分 性 信息 ， 并 且 基 于 句法 分 析 树 路 径 的 特征 通常 能 够 更 好 地 泛 
化 以 及 处 理 长 距离 的 依存 。 而 且 ， 两 类 系统 都 依赖 于 提 及 检测 来 识别 关系 和 事件 的 参与 
者 ， 并 且 提 供 容易 泛 化 的 关系 ， 因 为 只 有 少量 的 提 及 类 别 。 

事件 抽取 系统 和 关系 抽取 系统 如 此 类 似 的 一 个 主要 原因 是 ， 事 件 本 身 可 以 被 认为 是 围 
绕 某 个 锚 点 的 关系 的 集合 。 因 此 ， 正 如 我 们 所 见 到 的 那样 ,事件 同样 与 语义 角色 标注 系统 
十 分 相似 。 

关系 和 事件 抽取 的 主要 目标 是 结构 化 地 表示 文本 中 的 信息 ,这样 它 可 以 进入 数据 库 进 
行 搜索 ， 比 简单 地 进行 关键 字 搜 索 更 容易 、 更 有 效 。 我 们 也 看 到 了 低级 的 信息 抽取 过 程 能 
为 事件 匹配 提供 基础 。 正 如 将 在 第 14 章 看 到 的 一 样 ， 这 类 方法 也 可 以 形成 开放 的 问答 系 
统 的 基础 。 
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Olas PEE BAT SINE. RES: 在 保留 语义 的 情况 下 ， 把 
某 种 语言 的 文字 转换 成 另 一 种 语言 。 机 器 翻译 模仿 人 类 的 一 项 活动 ， 像 业余 的 和 专业 的 双 
语 人 士 的 日 常 工作 , 但 是 同时 它 又 显得 困难 重重 ,因此 大 多 数 的 研究 者 并 不 期 望 近期 内 能 
AR AZ Mri. HARMAN AEP R: 生成 足够 好 的 或 者 说 可 用 的 翻译 。 

近年 来 ， 随 着 万 维 网 和 数据 驱动 方法 的 出 现 ， 机 器 翻译 的 研究 有 了 一 些 新 的 动向 ， 并 
吸引 了 更 多 的 关注 ， 越 来 越 多 的 研究 机 构 已 经 针对 这 个 问题 展开 了 研究。 现在 任何 人 都 可 
以 通过 浏览 Google Translate 和 Systran's Babelfish? 等 著名 网 站 了 解 机 器 翻译 。 

机 妖 翻 译 研 究 突出 表现 在 以 下 两 个 方面 : 机 器 翻译 系统 已 经 达到 了 能 为 大 量 的 人 提供 
有 用 服务 的 程度 ; 同时 明显 较 低 的 准确 率 也 表明 还 有 大 量 的 研究 工作 要 做 ， 也 许 不 可 能 达 
到 完美 翻译 的 程度 ， 但 可 达到 更 高 的 翻译 质量 。 


10. 1 lara ie AA 


机 器 翻译 研究 起 源 于 20 世纪 40 年 代 ， 但 最 近 具 有 深远 意义 的 变化 可 以 追溯 到 1988 
年 。 那 一 年 ， 一群 IBM 的 研究 人 员 从 根本 上 改变 了 机 器 翻译 的 研究 方法 。 传 统 的 翻译 系 
统 需要 大 量 的 语言 学 家 定义 转换 规则 和 词典 ， 这 项 工作 是 长 期 的 且 非 常 辛 闸 ,一 种 用 于 语 
言 翻 译 的 统计 方法 可 以 减轻 这 种 需求 。 替 代 的 方法 是 : 与 传统 方法 不 同 ， 该 方法 需要 大 量 
已 翻译 的 包含 成 千 上 万 个 词汇 的 文本 语 料 。 同 时 ， 需 要 一 个 巧妙 的 统计 模型 ， 该 模型 有 助 
于 学 习 翻 译 规则 ， 并 且 为 寻找 给 定 输入 句子 的 最 好 翻译 的 解码 算法 提供 依据 。 
最 近 20 年 来 ， 当 时 IBM 提出 的 相当 简单 的 模型 (10. 3 节 将 详细 讨论 ) 已 经 发 展 为 基 
于 短语 的 模型 (phrase-based model) (参见 10.4 节 ) 和 基于 树 的 模型 (tree-based model) 
(参见 10. 5 Py 
目前 机 器 翻译 研究 最 主要 的 几 个 方向 包括 : 
。 开发 能 更 近似 地 从 语言 学 的 角度 理解 语言 的 模型 ; 
。 新 的 机 器 学 习 方 法 用 于 从 数据 中 学 习 翻 译 规则 的 估计 问题 ; 
。 尝试 利用 各 种 不 同类 型 的 数据 源 ， 这 些 数据 源 通常 不 属于 期 望 的 领域 ， 甚 至 根本 
不 是 常用 的 句 对 名 的 翻译 。 
机 器 翻译 被 集成 到 各 种 应 用 中 : 跨 语言 的 信息 抽取 、 语 音 翻 译 和 辅助 翻译 工具 等 。 
这 一 章 主 要 讨论 现代 机 器 翻译 系统 的 基本 技术 和 方法 。 我 们 首先 确定 翻译 的 目标 是 什 
么 以 及 如 何 评价 翻译 质量 获得 了 提高 。 


10.2 机 器 翻译 评测 
机 器 翻译 被 定义 为 : 在 保留 意义 (注意 词 “意义 ”) 的 情况 下 ， 把 一 种 语言 的 文本 转 
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换 为 男 一 种 语言 。 虽 然 意 义 也 许可 以 激发 哲学 家 的 思想 ,但 却 是 工程 人 员 的 亚 梦 。 意 义 是 
什么 ?如何 才能 度量 意义 ? 怎么 才能 知道 两 个 词 、 短 语 或 者 句子 表达 相同 的 意义 ? MRE 
们 的 意义 是 相似 的 ， 那 么 相似 的 程度 如 何 ? 

事实 上 ， 关 于 意义 的 问题 ， 几 乎 每 个 该 领域 的 研究 组 织 对 机 器 翻译 的 评估 都 有 自己 的 
准则 L2，3，4]j， 这 也 证 明了 意义 实际 上 不 是 一 个 微不足道 的 问题 。 图 10-1 显示 了 10 个 
不 同 的 翻译 人 员 把 一 个 中 文句 子 翻译 成 英语 句子 的 结果 。 即 使 是 一 个 如 此 简短 的 句子 ， 每 
个 翻译 人 员 都 给 出 了 不 相同 的 结果 。 这 种 不 一 致 性 并 不 是 中 文 的 性 质 一 一 其 他 语言 也 存在 
同样 的 现象 。 


这 个 机 场 的 安全 工作 由 以 色 列 方面 负责 . 


Israeli officials are responsible for airport security. 
Israel is in charge of the security at this airport. 
The security work for this airport is the responsibility of the Israel pov 
Israeli side was in charge of the security of this airport. 

Israel is responsible for the airport's security. 

Israel is responsible for safety work at this airport. 

Israel presides over the security of the airport. 

Israel took charge of the airport security. 

The safety of this airport is taken charge of by Israel. 

This airport's security is the responsibility of the Israeli security officials. 


图 10-1 同一 个 中 文句 子 来 自 不 同 翻译 人 员 的 10 种 不 同 的 英语 译文 (NIST 2001 if 
测 集中 的 一 个 典型 例子 ) 












因此 ， 如 果 用 机 器 翻译 系统 翻译 一 个 中 文句 子 ， 得 到 的 结果 即使 是 一 个 很 完美 的 翻 
译 ， 也 很 可 能 不 匹配 任何 一 个 人 为 给 出 的 翻译 结果 。 那 么 ， 如 何 才 能 知道 这 是 一 个 正确 的 
翻译 呢 ? 

因为 不 能 期 望 翻 译 的 结果 匹配 任何 一 个 参考 译文 ， 所 以 需要 有 某 种 方法 来 比较 机 髓 翻译 
系统 的 输出 结果 的 意义 与 原文 的 意义 ， 或 者 更 常用 的 是 ， 和 与 人 为 参考 译文 的 意义 作 比 较 。 


10.2.1 人 工 评测 


我 们 并 不 相信 计算 机 可 以 处 理 好 意义 的 问题 ， 所 以 通常 把 这 个 任务 交 给 人 工 评测 。 给 
定 原文 和 机 器 翻译 系统 的 输出 结果 ， 让 评测 人 员 来 判断 是 否 是 一 个 正确 的 翻译 。 
图 10-2 显示 了 在 最 近 一 次 研究 中 ，4 个 不 同 的 评测 人 员 对 一 个 法 语句 子 的 英语 翻译 的 
评测 结果 L5]j。 虽 然 对 有 些 翻译 结果 的 评测 结果 是 相同 的 ， 但 大 部 分 情况 下 是 不 同 的 。 所 
[332] 以 ， 即 使 是 翻译 结果 的 评测 这 样 一 项 简单 的 任务 ， 也 没有 明确 的 答案 。 


correct Sans se démonter, il s'est montré concis et précis. 


1/3 Without fail, he has been concise and accurate. 
Without getting flustered, he showed himself to be concise and precise. 
4/0 Without falling apart, he has shown himself to be concise and accurate. 
1/3 . Unswayable, he has shown himself to be concise and to the point. 

0/4 Without showing off, he showed himself to be concise and precise. 

1/3 Without dismantling himself, he presented himself consistent and precise. 
2/2 | He showed himself concise and precise. 

3/1 Nothing daunted, he has been concise and accurate. 

Without losing face, he remained focused and specific. 

Without becoming flustered, he showed himself concise and precise. 


图 10-2 人 类 对 译文 的 评测 结果 。 当 译文 是 正确 的 ，4 个 评价 结果 常常 并 不 相同 ， 例 
如 ， 对 法 文句 子 的 第 一 个 译文 ， 一 个 评测 人 员 认 为 正确 而 其 他 三 个 认为 错误 
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这 是 问题 吗 ? 不 是 的 ， 以 统计 机 器 翻译 中 采用 的 概率 论 的 观点 来 看 ， 任 何 一 个 原文 并 
没有 确定 的 译文 ， 只 能 说 某 些 译文 相 比 其 他 译文 正确 的 可 能 性 更 高 。 对 于 每 个 译文 ， 可 能 
的 评测 结果 表现 为 一 个 概率 分 布 ， 如 果 有 足够 的 样本 ， 其 统计 结果 将 收敛 于 真实 的 概率 分 
布 ， 因 此 评测 是 有 效 的 。 在 意义 世界 里 ， 并 没有 绝对 的 正确 或 绝对 的 错误 ， 总 是 有 人 能 找 
出 译文 的 缺点 。 

实际 上 ， 机 器 翻译 系统 会 生成 有 些 错 误 的 译文 ， 特 别 是 对 于 一 个 有 30 个 词 的 长 句 ， 
不 能 期 望 得 到 没有 任何 瑕 六 的 译文 。 此 外 ,我们 对 绝对 的 评价 并 不 感 兴趣 (有 多 少 句 子 的 
翻译 是 正确 的 呢 ?)， 而 关注 系统 的 相对 评价 (系统 A 是 否 比 系统 B 更 好 ?)。 因 此 ， 通 党 
情况 下 ， 不 是 说 某 个 译文 是 否 正 确 ， 而 是 说 某 个 译文 是 否 比 另外 一 个 更 好 。 

如 图 10-3 所 示 ， 一 个 人 造 的 例子 ，5 个 翻译 系统 给 出 5 个 不 同 的 译文 。 每 个 译文 都 有 不 
同 的 错误 : 漏 译 了 一 个 词 ， 错 译 了 一 个 词 ， 多 加 了 一 个 词 not， 错 误 的 标点 符号 以 及 拼写 错 
误 。 哪 个 译文 更 好 ? 

Reference: _ Israeli officials are responsible for airport security. — — 


System A: Israeli officials are responsible for security. 
System B: Israeli officials are responsible for rail security. 
System C: Israeli officials are not responsible for airport security. 
System D: Israeli officials are responsible. For airport security. 
System E: Israeli officials are responsible for arport sequrity. 


图 10-3 5 个 不 同 的 有 错误 的 译文 ， 如 何 比 较 它 们 


再 次 重申 ， 译文 的 评测 不 是 一 项 简单 的 任务 。 人 工 评测 会 有 不 同 的 偏好 ， 有 些 评测 者 
也 许 会 注重 标点 符号 [6]， 而 其 他 评测 者 完全 不 在 乎 。 添 加 一 个 简单 的 功能 词 会 带 来 多 坏 
的 影响 ? 如 果 这 个 词 是 aot， 人 情况 又 如 何 ? 

也 许可 以 避免 简单 地 回答 译文 是 否 正 确 ， 而 是 使 用 更 细 粒 度 的 衡量 标准 。 译 文 是 否 流 
利 一 一 也 就 是 说 ， 译 文 是 否 符 合 目 标语 言 的 语法 ? 译文 是 否 忠实 一 一 也 就 是 说 ， 在 抛 开 语 
法 的 情况 下 ， 译 文 是 否 传 达 与 原文 相同 的 意思 ? 即使 使 用 上 述 标 准 ， 不 同 的 评测 人 员 也 会 
有 不 同 的 偏好 。 

也 许 我 们 过 虑 了 。 我 们 为 人 工 评 测 者 设计 了 一 个 很 不 自然 的 任务 。 除 了 为 考试 结果 打 
分 的 语言 老师 外 ,没有 人 会 看 译文 并 孤立 地 评估 其 质量 。 人 类 用 译文 是 为 了 满足 获取 信息 
的 需要 ， 如 果 某 个 外 文 文本 的 译文 正 是 他 们 在 寻找 的 答案 ， 那 么 译文 就 是 正确 的 。 

为 了 真实 地 评价 机 器 翻译 的 质量 ， 需 要 把 译文 放 在 能 够 使 用 它们 的 环境 下 考察 。 最 近 
有 些 工 作 尝 试 建立 基于 任务 〈task-based) 的 评价 方法 。 例 如 ， 给 评测 人 员 一 个 译文 ， 然 
后 问 一 些 内 容 相 关 的 问题 。 如 果 能 够 回答 这 些 问题 ， 那 么 译文 就 是 正确 的 [7]。 在 男 一 个 
相似 的 方法 中 ， 可 以 在 不 给 出 原文 的 情况 下 ， 要 求 评测 人 员 编 辑 译文 从 而 得 到 流利 的 译 
文 ; 然后 ， 通 过 检查 编辑 后 的 译文 是 否 正确 来 判断 他 对 译文 的 理解 [3]. 


10.2.2 自动 评测 


机 器 翻译 系统 的 开发 过 程 中 需要 频繁 的 评测 一 一 太 频 繁 以 致 人 工 评 测 的 代价 非 浓 高 。 
在 机 器 翻译 的 研究 中 替代 的 方法 是 建立 一 种 被 广泛 接受 的 机 器 自动 评测 标准 。 事 实 上 ， 学 
术 论 文中 关于 机 器 翻译 质量 的 提高 很 少 包 括 人 工 评 测 的 结果 ， 而 几乎 都 是 基于 当前 最 流行 
的 自动 评测 标准 ，BLEU 。 

能 够 期 望 计算 标准 分 值 的 计算 机 程序 可 靠 地 评价 机 器 翻译 的 质量 吗 ? 如 果 计 算 机 程序 
能 够 判断 一 个 译文 是 否 正 确 ， 那 为 什么 不 能 首先 就 产生 正确 的 译文 呢 ? 实 际 上 ， 自动 评 测 
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守门 就 是 评测 中 不 仅 使 用 原文 和 系统 给 出 的 译文 ， 而 且 使 用 一 个 或 多 个 由 可 靠 的 翻译 
人 员 给 出 的 参考 译文 。 前 面 已 经 详细 地 讨论 了 人 或 机 器 翻译 系统 都 可 能 得 出 正确 的 、 但 是 
与 已 有 参考 译文 不 同 的 译文 。 因 此 ,这 就 是 使 用 回避 方法 的 地 方 ， 也 是 争论 不 休 的 地 方 : 
如 采 机 融 译 文 跟 已 有 的 参考 译文 是 相似 的 ， 那 么 就 很 有 可 能 是 正确 的 。 虽 然 很 容易 就 能 找 
到 一 个 简单 的 例句 推翻 这 种 观点 ， 但 自动 评测 事实 上 是 基于 包括 几 百 条 、 其 至 几 千 条 句子 
的 测试 集 的 。 在 大 规模 的 测试 集 上 ， 与 参考 译文 更 相似 的 译文 可 以 认为 是 更 好 的 。 

机 天 翻 译 目 动 评测 标准 的 研究 人 员 不 仅 支 持 此 观点 ， 还 通过 进行 相关 性 研究 证 实 此 观 
kA: 对 译文 按 上 自动 评测 标准 排序 的 结果 几乎 与 人 工 评测 的 结果 一 致 。 甚 至 举办 对 评测 标准 的 
评测 活动 ， 通 过 比较 与 人 工 评测 结果 的 相关 性 ， 不 同 评测 标准 的 开发 人 员 展 开 竞 争 [2，3，4j]。 

在 机 胡 翻 译 系统 的 开发 过 程 中 ,已 经 形成 了 一 套 测试 翻译 质量 的 体系 。 首 先 ， 选 择 测 
试 集 ， 让 翻译 人 员 给 出 一 个 或 多 个 参考 译文 ; 然后 ， 运 行 机 器 翻译 系统 并 度量 输出 结果 与 
参考 译文 的 相似 度 ; 最 后 ， 调 整 机 器 翻译 系统 并 在 相同 的 测试 集 上 再 次 运行 ， 再 次 度量 相 
似 度 ， 判 断 翻 译 质量 是 否 有 提高 。 

现在 的 任务 就 是 如 何 度量 机 器 翻译 结果 与 参考 译文 之 间 的 相似 度 。 这 个 词 是 和 “ 意 
义 ” 类 似 的 可 怕 的 词汇 之 一 ,但 是 我 们 将 从 简单 的 方法 开始 。 


10.2.3 WER, BLEU, METEOR $ 


语言 是 由 单词 构成 的 ， 如 果 两 个 句子 有 很 多 共同 的 词 ， 那 么 可 以 说 它们 是 相似 的 。 因 
此 ， 比 较 机 器 翻译 的 输出 结果 与 参考 译文 的 时 候 ， 可 以 统计 1) 匹配 数 Cmatch): 在 输出 
结果 和 参考 译文 相同 单词 的 个 数 ; 2) 插入 数 Cinsertion): 仅 在 输出 结果 中 出 现 的 单词 的 
个 数 ; 3) 删除 数 (deletion? :. 仅 在 参考 译文 中 出 现 的 单词 的 个 数 。 

给 定 上 面 三 个 计数 结果 ， 可 以 计算 许多 指标 : | 


精确 率 一 LL 人 天 (10.1) 

召回 率 一 E Ou (10. 2) 

PER = 1- pag RE (10. 3) 
pg - ee eee (10. 4) 
+a) X 精确 率 X 召回 率 (10. 5) 


WACEM nid dX MAR d EK 
上 面 这些 指 标 是 过 去 这 些 年 提出 的 机 器 翻译 评测 标准 的 基础 。 精 确 率 和 召回 率 哪 个 更 重要 
一 直 存 在 争议 ， 这 也 关系 到 如 何 惩 罚 太 短 或 太 长 译文 的 问题 。 位 置 无 关 错 误 率 〈Position- 
independent Error Rate，PER)， 是 最 早 提 出 的 评测 标准 之 一 。 
在 机 器 翻译 输出 和 参考 译文 之 间 进 行 单词 匹配 这 种 简单 的 方法 有 很 多 改进 的 措施 ， 
第 一 种 改进 措施 是 利用 多 个 参考 译文 (multiple reference translation)。 考 虑 到 译文 可 
以 有 一 定 的 偏差 ， 那 么 仅 使 用 一 个 参考 译文 作为 最 佳 标准 可 能 是 太 强 的 约束 。 如 果 使 用 多 
个 参考 译文 ， 那 么 正确 的 机 器 翻译 输出 与 其 中 一 个 参考 译文 具有 更 高 相似 度 的 概率 就 会 提 
高 。 这 一 措施 将 减少 正确 译文 得 分 较 低 的 情况 。 如 何在 评测 标准 中 考虑 多 个 参考 译文 ， 可 
以 总 是 选择 与 任何 参考 译文 相 比 得 分 最 高 的 ， 也 可 以 采用 更 复杂 的 方式 。 例如， 只 要 输出 
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结果 中 的 某 个 单词 与 任意 参考 译文 中 某 个 单词 匹配 ， 我 们 就 认为 匹配 。 

第 二 种 改进 措施 是 不 仅 匹 配 单词 ， 也 可 以 匹配 多 个 单词 组 成 的 区 元 组 ， 这 种 方法 尝试 
考虑 单词 的 顺序 。 不 能 期 望 输出 结果 与 参考 译文 中 的 所 有 匹配 单词 的 顺序 相同 ， 但 是 如 果 
输出 结果 与 参考 译文 中 的 多 个 相 邻 单词 是 按 序 匹 配 的 ,那么 这 种 情况 当然 更 好 。 

以 上 两 种 改进 措施 是 计算 BLEU 值 [8] 的 基础 。BLEU 值 是 在 机 器 翻译 领域 最 常用 
的 目 动 评测 标 准 ， 非 常 值得 详细 讨论 ， 其 正式 定义 为 : 


4 
BLEU = brevity-penalty X exp( DJ log precision; ) 
i=] 


out put- length 
mre sa pay d 

BLEU 实质 上 是 nn 元 组 精确 率 的 几何 平均 数 ， 通常 使 用 长 度 为 1~4 的 n 元 组 Cpreci- 
sion; 表示 长 度 为 i 的 n 元 组 的 精确 率 )。 因 为 是 一 种 基于 精确 率 的 度量 标准 ， 所 以 有 必要 
避免 选择 太 短 的 译文 。 这 个 问题 通过 引入 长 度 惩罚 因子 解决 ， 长 度 惩罚 因 了 于 仅 当 输出 译文 
比 参 考 译 文 的 长 度 短 的 情况 下 才 起 作用 。 使 用 多 个 参考 译文 的 时 候 允 许 输出 译文 中 的 宗 元 
组 与 任何 一 个 参考 译文 匹配 。 如 果菜 个 元 组 在 输出 译文 中 出 现 多 次 ， 那么 出 现 次 数 必 须 
等 于 该 nn 元 组 在 某 个 参考 译文 中 出 现 的 最 大 次 数 才 会 被 认为 是 匹配 成 功 。 在 多 个 参考 译文 
的 BLEU 指标 中 ， 与 输出 译文 长 度 最 接近 的 那个 参考 译文 的 长 度 就 被 确定 为 参考 译文 的 
KE. 

BLEU 值 是 基于 整个 文档 或 测试 集 计 算 的 ， 而 不 针对 单个 句子 。 实 际 上 ， 对 于 单个 句 
子 而 言 其 并 不 是 一 个 较 好 的 衡量 标准 ， 因 为 句子 级 的 四 元 组 的 精确 率 经 常 为 0， 或 者 四 元 
组 的 匹配 结果 对 最 终结 果 有 太 强 的 影响 。 当 把 BLEU 用 于 句子 级 的 评测 时 ， 精 确 率 通常 在 
实际 匹配 次 数 的 基础 上 加 1 进行 平滑 。 

2002 年 BLEU 值 被 提出 ,已 经 有 很 多 改进 的 方法 。 一 种 方法 是 不 对 n 元 组 基于 表 
层 形式 进行 严格 匹配 ， 而 至 少 把 那些 出 自 同一 个 原形 而 仅 是 形态 不 相同 的 单词 看 作 是 部 分 
匹配 的 。 也 可 以 使 用 像 WordNet [9] 那样 的 资源 ， 对 同义词 进行 匹配 。 一 种 最 近 比 较 被 
看 好 的 评测 标准 是 METEOR (Metric for Evaluation of Translation with Explicit Orde- 
ring) [10]， 支 持 上 面 提 到 的 匹配 方法 ， 同 时 更 强调 召回 率 而 不 是 精确 率 。 

. 一 种 较 早 的 想法 是 不 仅 把 句子 看 作 单 词 或 者 n 元 组 的 集合 ， 而 且 显 式 地 计算 输出 译文 

和 参考 译文 之 间 的 词 对 齐 关 系 。 词 错误 率 (Word-Error Rate, WER) 是 一 种 来 源 于 语音 
识别 的 评测 标准 ， 检 查 词 对 齐 关系 ， 并 且 不 允许 句子 之 间 单 词 的 位 置 变化 。 因 为 存在 许多 
单词 的 顺序 发 生变 化 但 意义 不 变 的 情况 ，WER 已 经 被 改进 为 允许 词 序 的 变化 ， 但 通过 附 
加 错误 〈 类 似 于 插 人 数 和 删除 数 ) 惩罚 这 种 现象 。TER 被 称 为 翻译 错误 率 或 翻译 编辑 率 ， 
在 允许 移动 的 情况 下 ， 计 算 输 出 译文 和 参考 译文 进行 词 对 齐 的 最 小 代价 。 不 幸 的 是 ， 找 到 
最 小 代价 的 对 齐 在 计算 上 是 很 复杂 的 ， 因 此 这 种 评测 指标 在 实际 中 计算 起 来 非常 慢 ， 并 且 
通常 情况 下 只 能 粗略 地 计算 。 

最 后 ， 我 们 已 经 具备 了 所 有 的 要 素 ， 可 以 把 机 器 翻译 的 评价 问题 看 作 一 个 机 豆 学 习 问 
题 。 多 年 以 来 ， 评 测 活动 已 经 构建 了 机 器 译文 及 其 人 工 评 测 结果 的 训练 语 料 ， 从 而 有 了 一 
个 明确 定义 的 目标 : 优化 自动 评测 指标 与 人 工 评测 结果 之 间 的 关联 。 因 此 ， 可 以 在 机 需 学 
习 方 法 中 使 用 任意 特征 ， 例 如 ， 近 年 来 有 些 研究 人 员 利 用 了 诸如 句法 关系 和 语义 角色 这 样 
的 语言 学 特征 。 


brevity-benalty — min( ji (10. 6) 
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10.3. ANF 

统计 机 器 翻译 的 思想 是 从 一 个 句子 对 齐 的 双语 平行 语 料 中 学 习 翻 译 规则 ， 首 要 的 工作 
是 从 语料库 中 抽取 单词 的 翻译 。 找 到 单词 的 翻译 是 建立 词 对 齐 关系 的 前 提 ， 而 建立 词 对 齐 
关系 是 任何 统计 机 器 翻译 模型 的 基本 步骤 之 一 。 


10.3.1 + 


假设 已 经 有 了 一 个 句子 对 齐 的 平行 语料库 ， 语 料 库 中 外 文句 子 人 与 它 的 英语 翻译 e 
对 出 现 。 这 样 的 语料库 可 以 从 互联 网 上 获取 〈 人 例如， 欧洲 议会 语 料 2 或 者 语言 数据 联盟 
(Linguistic Data Consortium, LDC)9 ) 或 者 从 翻译 机 构 的 翻译 记忆 库 中 收集 。 原 始 的 语 
料 需 要 进行 基本 的 预 处 理 ， 典 型 的 如 词 的 切 分 (分离 标点 符号 )、 数 据 整 理 〈( 扔 掉 非常 长 
的 句子 或 者 相对 长 度 不 匹配 的 句子 )、 删 除 大 小 写 ( 例 如， 把 所 有 单词 变 为 小 写 )， 语 料 预 
处 理 完 成 后 就 可 以 开始 下 一 步 工作 。 

然后 我 们 需要 从 语 料 中 学 习 一 种 语言 中 的 单词 能 被 翻译 成 另 一 种 语言 中 的 哪些 词 。 以 
词汇 化 概率 分 布 : (e | N 的 形式 表示 词 之 间 的 对 应 关系 ，t (e | f) 表示 外 语 单词 f 被 翻 
译 为 英语 单词 e 的 概率 。 例 如 ， 对 于 德 文 单词 Haus， 期 望 学 习 到 以 下 的 关系 : 

0.8 车 e = house 
0.16 3X e = building 
t(e | Haus) = [0.02 3$ e = home CIO. 7) 
0.015 e = household 
0.005 Æ e sell 

正如 统计 机 器 翻译 这 个 名 字 所 示 ， 需 要 从 统计 数据 中 学 习 一 个 模型 ， 这 些 统计 数据 就 
是 双语 语料库 中 单词 出 现 的 频次 。 遍 历 语 料 库 中 的 所 有 包含 外 语 单词 Clll Haus) 的 双 
语句 对 ， 可 以 统计 出 其 对 应 哪些 英语 单词 及 对 应 的 次 数 。 基 于 这 些 统计 结果 ， 可 以 估计 条 
件 概 率 分 布 : 

~  . . gount Cf se) 
Peoria >) count Cf .e^) SN 

在 统计 计数 时 必须 小 心 谨慎 。 比 如 说 ， 考 虑 一 个 包含 德语 单词 f BRIT f. Go n Bg 
语句 子 e 中 有 5 个 单词 。 能 把 单词 f 5 5 个 英语 单词 eEe 的 重 现 关 系 都 当 作 一 次 计数 吗 ? 

如 果 这 样 计 数 的 话 ， 对 于 长 句 和 短 句 将 导致 不 一 样 的 计数 结果 。 在 一 个 有 5 个 英语 单 
词 的 句 对 中 ， 对 外 语 单词 f 计数 的 结果 是 5 次 ; 但 是 如 果 英 语句 子 的 长 度 是 10， 那 么 计数 
的 结果 就 是 10。 实 际 上 ， 外 语 单 词 f 的 对 应 翻译 在 每 个 句子 中 只 出 现 一 次 。 

因此 ， 替 代 的 方法 是 使 用 分 数 计数 : 如 果 英 语句 子 有 5 个 单词 ， 既 然 不 知道 哪个 单词 
是 外 语 单 词 f 的 翻译 ， 那 么 对 每 个 词 的 计数 就 是 1/5. 

这 种 计数 方法 的 效果 怎么 样 ? 直觉 上 ， 一 个 外 语 单词 f 与 其 常用 的 翻译 e 之 间 的 共 现 
频率 应 该 比较 高 ， 所 以 可 以 期 望 估计 出 相对 高 的 上 el .P) 。 但 是 ， 在 英语 中 几乎 每 个 句子 的 
结尾 都 是 名 号， 那么 句号 与 外 文 单词 f 的 共 现 概率 就 比 任何 f 的 真实 翻译 都 高 。 能 断定 每 
个 外 语 单 词 最 可 能 的 翻译 真 的 是 句号 吗 ? 


© http://www. statmt. org/europarl/, 
© http://www. ldc. upenn. edu/ 。 
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有 的 地 方 肯定 出 错 了 。 在 统计 中 使 用 单词 f 出 现 的 次 数 而 不 是 e 出 现 的 次 数 归 一 化 
Cf. e) 的 共 现 次 数 。 现 在 概率 估计 也 可 以 使 用 其 他 的 统计 方法 ， 例 如 ， 通 过 互信 息 的 方 
法 。 实 际 上 ， 在 文献 中 奉 干 种 这 样 的 统计 方法 已 经 用 于 共 现 的 统计 。 


10.3.2 IBM 模型 1 


IBM 模型 1 是 第 一 个 统计 机 器 翻译 模型 ， 使 用 一 种 不 同 的 方法 解决 概率 估计 问题 。 不 
改变 条 件 概 率 模型 ， 而 是 为 每 个 句 对 寻找 一 个 词 对 齐 关系 。 一 个 外 语句 子 f 以 对 齐 关系 a 
被 翻译 成 英语 句子 e 的 概率 定义 如 下 ， 


Ü 
ieu d ile alice TANE (10. 9) 
j=l 


ERARE FKZ a， 其 功能 非常 直观 : 英语 句子 中 位 置 为 7 的 单词 匹配 外 语句 
子 中 位 置 为 a(;) 的 单词 。 值 得 注意 的 是 ， 这 个 公式 是 原始 的 IBM 模型 1 的 一 个 稍微 简化 
的 公式 ， 在 这 里 没有 引入 噪声 信道 模型 9 。 通 过 归 一 化 常数 Z 来 确保 p(e，alf) 是 一 个 正 
确 的 概率 分 布 。 

假如 已 经 完成 了 上 一 节 所 述 的 估计 过 程 ， 并 最 终 得 到 条 件 概 率 i(e| f) 。 再 次 观察 平行 
语 料 的 第 一 个 名 对， 并 期 望 找 出 它们 之 间 最 可 能 的 词 对 齐 关 系 。 

仔细 观察 等 式 (10.90. SEMA ple, al) 最 大 化 ， 就 意味 着 分 别 使 每 个 i(e | 
fap) 最 大 化 。 换 句 话 说， 需要 找 出 外 语句 子 f 中 能 最 好 解释 单词 e 的 单词 f。 

正如 上 一 节 提 到 的 ， 也 许 在 你 的 心里 依然 会 存在 一 些 困 惑 ， 每 个 外 语 单词 上 都 可 能 偏 
向 于 对 应 英语 中 的 句号 。 但 这 并 不 是 我 们 在 此 要 讨论 的 问题 ， 因 为 只 有 一 个 外 语 单 词 会 对 
应 句号 ， 但 是 也 需要 考虑 外 语 单词 与 其 他 英语 单词 的 对 应 关系 。 与 英语 单词 house 对 应 最 好 
的 外 语 单词 是 哪 一 个 呢 ? 当然 不 是 外 语句 号 ， 句 号 与 相当 多 的 单词 存在 对 应 概率 ， 这 使 情况 
变 得 非常 混乱 。 我 们 期 望 德语 单词 Haus 有 非常 大 的 机 会 对 齐 到 英语 单词 house。 这 也 是 令 人 
困惑 的 ， 因 为 Haus 可 能 仍然 偏 癌 于 对 齐 到 英语 中 的 句号 ; 但 可 以 期 望 p(house | Haus) 大 
CT plhouse|.). 

更 进一步 : 如 果 遍 历 双 语 平行 语料库 中 的 每 个 句 对， 并 为 每 个 句 对 找 出 最 可 能 的 词 对 
齐 关 系 ， 然 后 仅 计 数 对 齐 的 词 ， 我 们 可 以 期 望 更 好 地 估计 词 的 翻译 概率 分 布 te | f)。 下 
一 节 将 讨论 使 用 巧妙 的 EM 算法 更 好 地 处 理 这 个 问题 。 


10.3.3 期 望 最 大 化 


因为 语 料 的 不 完备 性 ， 从 平行 语料库 中 学 习 单 词 的 翻译 概率 将 会 遇 到 一 些 困难 。 不 
错 ， 我 们 有 平行 语料库 ， 并 且 所 有 的 英语 句子 都 能 匹配 它们 的 外 语 翻译 ， 但 是 我 们 只 有 各 
子 的 对 齐 而 没有 词 的 对 齐 。 

如 果 有 真实 的 词 对 齐 语 料 ， 那 么 统计 计数 并 估计 单词 的 翻译 概率 £Ce| f) 是 非常 简单 
直观 的 。 另 一 方面 ， 如 果 能 得 到 真实 的 词 对 齐 概率 tC(e|f)， 那 么 很 容易 就 可 以 找 出 每 个 名 
子 对 最 有 可 能 的 词 对 齐 关 系 。 但 是 两 种 信息 都 没有 ， 那 么 能 做 什么 呢 ? 

期 望 最 大 化 (Expectation Maximization, EM) 算法 的 基本 思想 如 下 : 首先 假设 已 经 
有 词 的 概率 分 布 信息 te| f)， 然 后 就 可 以 找 出 最 好 的 词 对 齐 关 系 。 通 过 得 到 的 词 对 齐 关 系 


白 ” 噪 声 信道 模型 利用 贝 叶 斯 规则 argmaxep(lel 人 = 二 pl(e)p(fle) 集成 语言 模型 ple)， 因 此 把 翻译 模型 方向 从 pl(e | D 
转换 为 p(f | e) 。 
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可 以 重新 建立 一 个 更 好 的 模型 ， 有 了 新 的 模型 后 重复 上 述 过 程 。 

简单 地 说 ， 期 望 最 大 化 算法 的 流程 如 下 : 

10 初始 化 模型 ， 通 常 从 均匀 分 布 开 始 。 

2) 将 模型 应 用 于 数据 : 计算 每 个 可 能 的 词 对 齐 关 系 的 概率 。 

3) 从 数据 中 学 习 模 型 ， 基 于 词 对 齐 计 数 ， 重 新 估计 词 的 翻译 概率 分 布 。 

4) 重复 迭代 步骤 2 和 3 直到 收敛 。 

实际 上 ， 在 上 一 节 中 已 经 运行 了 简化 的 EM 算法 的 两 次 迭代 。 在 EM 算法 中 ， 必 须 考 
虑 每 一 种 可 能 的 对 齐 一 一 而 不 仅仅 是 最 有 可 能 的 对 齐 一 一 基于 给 定 句 对 对 齐 的 条 件 概率 计 
数 〈 在 算法 的 第 一 次 迭代 中 ， 通 过 收集 分 数 计数 隐 含 地 完成 这 一 操作 ) 。 

考虑 所 有 可 能 的 词 对 齐 关 系 是 一 项 非常 困难 的 任务 : 因为 每 个 英语 单词 都 可 以 对 齐 到 
任意 的 外 语 单词 ， 因 此 每 个 句 对 全 部 可 能 的 词 对 齐 关 系 是 指数 级 的 。 在 IBM 模型 1 中 ， 
采用 了 一 种 巧妙 的 方法 在 多 项 式 的 时 间 内 准确 地 估计 概率 ， 但 是 在 改进 的 模型 中 ， 这 是 不 
可 能 的 。 代 蔡 的 方法 是 ， 通 过 从 对 齐 空 间 中 采样 ， 从 而 找 出 最 有 可 能 的 对 齐 关系 ， 并 仅 在 
采样 的 子 空间 中 计数 。 


10.3.4 “对齐 模型 


对 于 词 对 齐 和 统计 机 器 翻译 来 说 ，IBM 模型 1 是 很 简单 的 ，IBM 最 初 的 研究 人 员 也 
仅仅 是 把 模型 1 当 作 构 建 更 复杂 模型 的 中 间 步 邓 。 因 为 有 太 多 的 对 齐 关 系 可 选择 ， 所 以 在 
词 的 数量 比较 少时 ， 模 型 1 的 效果 并 不 好 。 如 果 一 个 外 语句 子 中 相同 的 单词 出 现 多 次 ， 那 
么 模型 1 就 不 能 处 理 这 种 情况 ， 因 为 这 些 单词 具有 相同 的 概率 ， 英 语 单词 将 对 齐 到 多 个 相 
同 词 中 的 哪个 呢 ? 

一 种 扩展 模型 的 方法 是 引入 对 齐 概率 组 件 ，IBM 模型 2 提出 了 一 个 基于 词 的 绝对 位 置 
a(i|j,le,lt) 的 模型 。 基 于 英语 句子 和 外 语句 子 的 长 度 L. lp 和 英语 单词 在 句子 中 的 位 置 
7 ， 可 以 预测 对 应 的 外 语 单词 的 位 置 i。 

综合 这 些 因素 ， a 


ple,a 5 - ATi f«pJa(QG) | 351 sty) (10. 10) 


毕竟 ， 通常 情况 下 单词 仅 在 短语 内 部 移动 ， 所 以 并 不 映射 词 的 绝对 位 置 关 系 ， 而 是 更 
趋向 于 使 用 相对 于 前 一 个 词 的 位 置 关 系 。IBM 模型 4 和 隐 马 尔 可 夫 模 型 HMM) 都 把 相 
对 对 齐 模型 应 用 到 词 对 齐 中 [11]. ; 

模型 的 进一步 扩展 : 虽然 严格 限制 一 个 英语 单词 只 能 对 齐 到 一 个 外 语 单词 ， 但 是 一 
了 
的 概念 ， 并 增加 另 一 个 条 件 概率 预测 一 个 外 语 单词 生成 多 少 个 英语 单词 。 


10. 3.5 “对 称 化 


现在 碰 到 了 统计 机 器 翻译 中 最 琅 手 的 问题 。 虽 然 目 前 还 是 经 常 把 IBM 的 这 些 模型 应 
用 到 词 对 齐 中 ， 但 它们 存在 基本 的 缺陷 。 使 EM 算法 非常 有 效 的 巧妙 方法 是 限制 是 一 个 英 
语 单词 仅 与 一 个 外 语 单词 对 齐 呈 。 

从 语言 学 的 角度 来 看 ， 这 样 的 限制 没有 道理 ， 严 格 的 一 对 多 对 齐 限制 也 是 一 种 奇怪 的 


O 实际 上 ， 也 允许 英语 单词 对 齐 到 人 造 的 空 (null) 词 ， 但 不 允许 一 个 英语 单词 对 应 到 多 个 外 语 单词 。 
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不 对 称 。 那 么 ， 还 能 做 什么 呢 ? 也 许可 以 从 两 个 方向 运行 IBM 模型 中 的 EM 训练 (得 到 
一 个 一 对 多 的 对 齐 和 一 个 多 对 一 的 对 齐 )， 然 后 合并 两 个 方 癌 的 对 齐 关 系 ， 这 个 粗略 的 处 [340 
理 过 程 称 为 对 称 化 (symmetrization) [12], 

一 旦 得 到 了 两 个 方 问 的 词 对 齐 结 果 ， 就 可 以 对 对 齐 点 求 并 集 和 交集 。 一 种 比较 通用 的 
方法 是 ， 最 终 的 对 齐 关系 中 包括 交集 中 所 有 的 对 齐 点 和 并 集中 的 某 些 对 齐 点 ,通常 添加 的 


是 并 集中 与 已 经 建立 对 齐 关 系 的 点 相 邻 的 对 齐 点 ， 如 图 10-4 所 示 。 
a a Cal a 
The The 
garage garage 
door door 
opens opens 
quickly quickly 
Mp ps M 
ger eer s 

The 

garage 

door 

opens 

quickly 





图 10-4 克服 IBM 模型 的 假设 一 对 多 对 齐 的 缺陷 (反方 向 运行 时 是 多 对 一 对 齐 )。 启 发 式 方法 
如 “grow-diag-final” 从 双向 运行 模型 得 到 的 两 种 对 齐 结 果 的 交集 中 的 对 齐 点 开始 
(黑色 第 头 所 示 )， 然 后 从 两 种 对 齐 结果 的 并 集中 选择 相 邻 的 对 齐 点 A EMAR) 


例如 ,“grow-diag-final” 是 最 常用 的 一 种 方法 ， 该 方法 已 经 被 集成 到 开源 的 Moses 系 
统 中 。 实 现时 ， 增 加 与 已 经 对 齐 的 点 直接 或 者 对 角 相 邻 的 点 ， 直 到 收敛。 在 最 后 一 步 执 行 
时 ， 增 加 迄今 为 止 还 没有 对 齐 的 点 。 这 种 启发 式 方式 的 伪 代 码 如 算法 10-1 所 示 。 


算法 10-1 启发 式 对 称 化 算法 伪 代 码 ， 该 算法 从 由 两 个 IBM 模型 对 齐 的 交集 与 并 集 所 组 成 的 点 集合 中 挑 
选 点 ， 以 完成 对 称 化 


输入 : 句 对 (e, f), DLE EE e2f 和 f2e 
输出 : 词 对 齐 a 

1: grow-diag-final(e2 f, f 2€): 

2: 邻居 = ((-1,0),(0,-1),(1,0),(0,1), (-1,-1),(-1.1).(1,-1), (1.1) 
3: 对 齐 = intersect(e2 f, f/2e): 

4: GROW-DIAG(); 
5: FINAL(e2f); 
6: FINAL(f2e); 


7: function GROW-DIAG(): 

8: while 和 迭代 直到 没有 新 点 可 添加 do 
9: for all 英文 词 e € {e)...e,} do 
10: for all 外 文 词 FE {f1-..fm} do 


11: if e 5 f 对 齐 then 
12: for all 邻居 点 €new: fnew dO 
13: if (enew 未 对 齐 | fnew 未 对 齐 ) 


& (enew, fnew) € union(e2f, f2e) then 
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14: 添加 对 齐 点 (Enews few) 
15: end if 

16 end for 

17 end if 

18 end for 

19: end for 


21: function FINAL(a): 

22: for all 英文 词 enew € {ei...en} do 

23: for all 外 文 词 fnew € {fi...fm} do 

24: if (€new 未 对 齐 | fnew Xx FF ) & (€new; pad) € union(e2 f, f2e) then 
25: 添加 对 齐 点 (enew; fnew) 

26: end if 

27. end for 

28: end for 


对 称 化 的 过 程 有 很 多 改进 的 方法 ， 例 如 ，EM 训练 的 每 一 次 迭代 后 都 可 以 执行 对 称 化 
[13]。 也 可 以 使 用 机 器 学 习 的 方法 迭代 地 向 对 齐 的 交集 中 增加 对 齐 点 [14，15]， 或 者 和 迭 
代 地 从 对 齐 的 并 集中 删除 对 齐 点 [16 ]. 


10.3.6 作为 机 器 学 习 问 题 的 词 对 齐 


与 评价 标准 一 样 ， 一 旦 自然 语言 研究 者 们 设法 适当 地 定义 了 某 个 问题 ， 不 久 就 会 有 一 
大 群 机 器 学 习 的 研究 人 员 使 用 他 们 偏爱 的 算法 研究 该 问题 。 在 词 对 齐 方面 也 发 生 了 同样 的 
事情 ， 近 年 来 这 样 的 事情 越 来 越 多 。 

从 机 器 学 习 的 角度 看 ， 词 对 齐 是 一 个 有 趣 的 无 监督 学 习 问 题 ， 列 出 最 近 应 用 到 的 所 有 
相关 方法 并 不 重要 。 大 家 可 以 猜想 到 ， 如 感知 机 算法 [17. 18]. MARA [19]. HA 
网 络 [20]、 最 大 边界 方法 [21]、boosting [22，23]j、 支 持 向 量 机 L24]、 条 件 随 机 场 
[25, 26] 和 MIRA 算法 (Margin Infused Relaxed Algorithm) [27]. 

机 器 学 习 方 法 在 词 对 齐 上 成 功 突 破 的 关键 是 测试 集 的 建立 ， 这 里 是 指 人 工 标注 的 作为 最 
佳 标准 的 词 对 齐 资料 。 对 许多 语言 对 存在 几 个 那样 的 测试 集 ， 通 常 可 以 通过 LDCS 获取 。 

如 何 评测 词 对 齐 的 质量 存在 一 些 争 议 ， 对齐 错误 率 CAlignment-Error Rate, AER) 
是 一 种 较 早 的 评价 标准 ， 但 受到 了 严厉 的 批评 [28]。 因 为 词 对 齐 多 数 情 况 下 只 是 统计 机 
器 翻译 的 一 个 中 间 过 程 ， 那 么 最 终 的 评价 准则 应 该 是 使 用 某 种 词 对 齐 关 系 能 够 得 到 怎样 的 
翻译 质量 。 当 然 ， 这 种 评测 指标 在 计算 上 是 非常 耗 时 的 。 


10.4 基于 短语 的 翻译 模型 


当前 ， 在 统计 机 器 翻译 领域 占 主导 地 位 的 方法 是 基于 较 短文 本 块 (通常 只 包括 1 一 3 
个 单词 ) 之 间 的 映射 关系 而 建立 的 模型 。 既 然 这 些 文本 块 不 必 是 语言 学 上 的 短语 (例如 ， 
语法 分 析 中 的 成 分 )， 那 么 称 为 短语 就 有 点 误导 作用 。 

与 基于 词 的 翻译 模型 相 比 ， 基 于 短语 的 模型 克服 了 单词 之 间 必 须 一 一 对 应 这 样 一 个 根 
本 的 缺点 。 虽 然 在 处 理 实际 问题 的 时 候 ， 基 于 词 的 模型 引入 了 诸如 繁衍 率 和 生成 空 词 等 方 
法 ， 但 是 后 果 是 模型 训练 和 解码 算法 都 更 加 困难 。 基 于 短语 的 模型 的 优势 还 包括 : 可 以 从 
更 多 的 训练 语 料 中 学 习 到 越 来 越 长 的 短语 。 最 极端 的 情况 下 ， 一 个 句子 也 许可 以 在 训练 语 
料 中 找到 完整 的 翻译 。 
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10.4.1 模型 


基于 短语 的 模型 的 优点 是 它 相 当 简 单 ， 因 此 存在 很 直观 的 训练 方法 和 高 效 的 解码 算 
法 。 如 图 10-5 所 示 ， 输 入 的 外 语句 子 被 切 分 成 多 个 短语 ， 每 个 短语 一 对 一 地 对 应 到 英语 
短语 ， 并 且 英 语 短语 之 间 可 以 进行 调 序 。 

现在 从 数学 意义 上 给 出 基于 短语 的 统计 机 器 翻译 模型 的 定义 。 首 先 ， 运 用 贝 叶 斯 法 
则 ， 对 翻译 方向 进行 转换 ， 并 引入 语言 模型 pLw 。 对 于 给 定 的 外 文句 子 f， 其 最 优 的 英文 
翻译 epest 可 以 定义 为 : 

Cbest = argmaxeple | f) 


an are (10. 115 


= argmax, p(f | e piu (Ce) 


sprachen sie miteinander 


= argmaxe 












图 10-5 ”基于 短语 的 机 融 翻 译 。 输 入 的 句子 被 切 分 成 若干 个 短语 〈 不 必 是 语言 学 意义 上 的 )， 然 
后 将 短语 一 对 一 地 翻译 成 英语 短语 ， 顺 序 可 能 调整 


值得 注意 的 是 可 以 忽略 外 语句 子 f 的 概率 p(f)， 因 为 对 于 其 所 有 可 能 的 译文 e， 它 是 
一 个 常量 。 可 以 进一步 把 条 件 概 率 p(fle) 分 解 为 : 


I 
pf | e) = [sfileodsart; — end; —1) (10. 12) 
i-1 


其 中 ， 外 语句 子 了 被 切 分 成 I 个 短语 f;， 每 个 外 语 短 语 f; 被 翻译 成 一 个 英语 短语 ei 。 
因为 数学 意义 对 翻译 方向 进行 了 转换 ， 所 以 短语 翻译 概率 jy(f; | e 被 建 模 成 从 英语 到 外 
语 的 翻译 。 

调 序 问题 由 基于 距离 的 调 序 模型 (distance-based reordering model) 实现。 参考 前 一 
个 短语 ， 判 断 当 前 短语 是 否 需 要 调 序 。 定 义 start; 是 翻译 成 第 i 个 英语 短语 的 外 语 输 入 
短语 中 第 一 个 词 所 在 的 位 置 ，end; 是 该 外 语 短 语 中 最 后 一 个 单词 所 在 的 位 置 。 通 常情 况 
下 ， 这 种 模型 不 是 根据 语 料 来 估计 概率 ， 而 是 使 用 一 个 基于 相对 移动 距离 的 固定 代价 函 


# ， d(z)— Fel". 


一 些 其 他 的 组 件 也 可 以 引入 到 模型 中 。 典 型 的 是 ， 为 每 个 产生 的 单词 附加 一 个 因子 
c» FER PSA TB ART os! ， 从 而 可 调节 模型 以 产生 更 长 的 输出 或 更 短 的 输出 。 


10.4.2 训练 


基于 短语 的 模型 的 最 主要 的 知识 源 是 大 规模 的 短语 翻译 表 。 短语 翻译 表 中 包括 输入 短 
语 和 它们 可 能 的 翻译 ， 以 及 相应 的 概率 值 。 

可 以 从 词 对 齐 的 双语 平行 语料库 中 学 习 获 得 短语 翻译 表 。 给 定 一 个 词 对 齐 和 名 对， 就 
可 以 抽取 出 与 词 对 齐 一 致 的 所 有 短语 对 。 与 词 对 齐 一 致 指 的 是 短语 对 中 的 单词 相互 对 齐 ， 
但 不 对 齐 到 短语 对 外 的 单词 。 
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图 10-16 给 出 了 一 个 实例 .假定 有 词 对 齐 点 (Copens. geht), (opens, auf) 和 
(quickliy，schnell)， 可 以 抽取 出 短语 对 Copens quickly, geht schnell auf). 

短语 抽取 时 会 有 一 些 具 体 的 规定 ， 如 最 大 短语 长 度 
(通常 为 5 一 7)、 在 短语 的 边界 上 是 否 可 以 包括 未 对 齐 的 词 
(通常 情况 可 以 , 但 有 时 不 可 以 )、 是 否 采用 分 数 计数 、 是 The 
否 句 子 中 一 个 源 语言 短语 可 对 应 到 多 个 目标 语言 短语 ( 相 garage 
反方 向 也 一 样 ) 。 E: 

抽取 短语 对 时 ， 通 过 统计 得 到 累计 次 数 ， 再 基于 相对 ur 
频率 就 可 以 直接 估计 短语 翻译 的 条 件 概 率 : 


quickly 





SCF |o- He p (10.13) 图 10-6 短语 抽取 : 给 定 图 中 的 
2j count Ge, f^) 词 对 齐 ， 抽 取出 短语 对 
短语 翻译 的 条 件 概率 估计 经 常会 遇 到 数据 稀疏 的 问题 。 Coe re oe 


schnell auf ) 


在 极端 的 情况 下 ， 一 个 英语 短语 在 语料库 中 只 出 现 一 次 ， 
那么 唯一 对 应 的 外 文 短 语 三 的 短语 翻译 概率 为 & Cf 12) =1. 
有 几 种 方法 可 以 缓解 这 种 情况 。 通 常 ， 可 以 加 上 额外 的 基于 词汇 的 翻译 概率 的 评分 函 
数 ， 例 如 IBM 模型 1; 使 用 Good-Turing 平滑 方法 对 初始 计数 进行 折扣 也 是 有 效 的 [29]。 
在 10.4. 5 节 中 将 继续 改进 模型 ， 重 新 形式 化 为 对 数 线性 模型 (log-linear model), 3x 
种 模型 可 以 很 方便 地 集成 额外 的 评分 图 数 。 现 在 首先 考虑 一 个 实际 的 问题 : 对 一 个 新 的 、 
从 未 出 现 过 的 输入 句子 ， 如 何 产生 它 的 译文 。 


10.4.3 解码 
假设 希望 翻译 如 下 的 德语 句子 : 
Sechs Studen sprachen sie miteinander. 
six hours spoke they with each other. 


英语 句子 通常 以 主语 开头 ， 因 此 在 翻译 成 英语 句子 时 ， 要 先 找 出 德语 句子 的 主语 sie 
并 翻译 为 They， 然 后 找 出 动词 sprachen 并 以 其 对 应 的 spoke 扩展 翻译 。 从 左 到 右 地 构建 
翻译 ， 可 以 得 到 英文 句子 : 

They spoke with each other for six hours. 

在 解码 算法 中 ， Fela Bala UL ae Az BET A. ASE A IUS. DIOS E 
翻译 表 中 有 太 多 的 选项 可 以 选择 。 如 图 10-7 所 示 ， 一 个 真实 例子 的 短语 表 选 项 的 部 分 搞 
录 (使 用 从 欧盟 [欧洲 议会 」】 语 料 库 获 取 的 短语 翻译 表 )。 翻 译 时 ， 仅 当 句 子 全 部 构建 完 
成 后 才能 计算 整个 翻译 结果 的 概率 。 


Sechs | Stunden | sprachen | sie | mitemander | - | 

! 

Lhoursof | they spoke | together | | 
图 10-7 一 个 德语 短 句 的 翻译 选项 


解码 算法 开始 时 可 以 选择 图 中 任意 的 翻译 选项 ， 随 后 就 不 能 再 选择 已 经 翻译 过 的 词 或 
短语 ， 但 还 剩 下 几乎 同样 多 的 选项 。 一 种 朴素 的 算法 尝试 找 出 翻译 选项 所 有 可 能 的 组 合 ， 
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这 种 算法 的 时 间 复 杂 度 是 句子 长 度 的 指数 级 。 实 际 上 ， 机 器 翻译 的 解码 已 经 被 证 实 是 一 个 
NP 完全 问题 [30]. 

在 第 用 的 柱 搜索 栈 解 码 算法 中 ， 我 们 通过 保存 最 有 希望 的 局 部 翻译 ， 并 使 用 新 的 翻译 
选项 进行 扩展 直到 覆盖 整个 输入 句子 的 方法 来 搜索 句子 可 能 的 翻译 。 部 分 翻译 ( 称 为 翻译 
假设 ，hypotheses) 基于 已 经 翻译 过 的 外 语 单词 的 数量 被 组 织 在 不 同 的 栈 中 。 例 如 ， 栈 1 
保存 所 有 已 经 翻译 了 一 个 外 语 单词 的 翻译 假设 。 为 了 限制 栈 中 翻译 假设 的 数量 ， 必 须 丢 掉 
那些 看 上 去 而 望 不 大 的 假设 。 

扩展 一 个 栈 中 的 翻译 假设 将 产生 新 的 翻译 假设 ， 并 把 它们 存放 在 后 续 的 栈 中 ， 然 后 继 
续 处 理 下 个 栈 。 算 法 10-2 是 这 种 解码 算法 的 伪 代 码 ， 图 10-8 描述 了 该 过 程 。 


算法 10-2 启发 式 栈 解 码 的 伪 代 码 


MA: 外 文句 f= fi,...fi, 

tH: 英文 翻译 e 
1: 将 所 有 空 的 翻译 假设 放 到 推 栈 0 
2: for all È 0... — 1 do 
3: for all 栈 中 的 翻译 假设 do 


4 for all 翻译 选项 do 
5 if 可 以 应 用 then 
6: 创建 新 的 翻译 假设 
t 将 它 放 到 栈 中 
8 如 果 可 能 ， 与 已 存在 的 翻译 假设 重合 并 
9: 如 果 栈 太 大 ， 对 栈 进 行 剪 枝 
10: end if 
11: end for 
12: end for 
13: end for 


RitQHBRE RAE “StH” KHER NEARER 8] PRA ARENAS. 18 
“ 光 柱 ”并 不 是 足够 明亮 到 能 探索 到 所 有 可 能 的 路 径 ， 因 此 只 能 探索 到 一 些 可 供 选 择 的 
BE 

如 上 所 述 ， 在 解码 的 过 程 中 必须 清理 掉 每 个 栈 中 希望 不 大 的 候选 假设 。 注 意 当 产生 部 
分 翻译 后 ， 就 可 以 按照 公式 (10. 13) 算出 短语 翻译 概率 ， 基 于 到 目前 为 止 被 选择 的 翻译 
选项 计算 部 分 翻译 的 得 分 。 然 后 可 以 根据 计算 出 的 翻译 得 分 对 栈 中 的 候选 翻译 排序 ， 抛 弃 
最 差 的 那些 。 

特别 地 ， 同 一 栈 中 的 翻译 假设 可 能 覆盖 不 同 的 外 语 单词 ， 如 果 仅 根据 当前 翻译 得 分 做 
出 判断 ， 对 那些 先 翻译 句子 中 较 难 部 分 的 候选 翻译 是 不 公平 的 。 因 此 ， 除 了 考虑 当前 得 分 
外 ， 还 应 考虑 未 来 代价 估计 (future cost estimate), 

还 有 一 个 非常 重要 的 方法 : 重合 并 (recombination)。 在 搜索 过 程 中 ， 可 能 会 存在 两 
条 不 同 的 解码 路 径 导 致 基本 相同 的 状态 。 例 如 ， 可 以 从 单个 词 的 短语 对 sie they 开始 翻 
译 ， 然 后 通过 短语 对 sprachen—spoke 扩展 。 但 我 们 也 可 能 简单 地 使 用 包括 两 个 单词 的 短 
语 对 sprachen sie—they spoke 。 两 种 翻译 假设 中 ， 其 中 一 个 当前 得 分 更 高 (根据 短语 翻译 
的 代价 计算 )， 那 么 就 可 以 安全 地 移 除 较 差 的 那个 翻译 假设 。 

值得 注意 的 是 ， 重 合并 时 翻译 假设 并 不 需要 完全 匹配 ， 只 需要 保证 它们 对 后 续 扩 展 是 
不 可 区 分 的 。 虽 然 两 个 翻译 假设 必须 覆盖 相同 的 输入 单词 (这 将 影响 后 续 搜 索 ，;， 但 只 要 
超出 了 7 元 组 模型 的 窗口 ， 对 应 的 输出 结果 就 可 以 不 相同 。 
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无 单词 一 个 单词 两 个 单词 三 个 单词 
翻译 翻译 翻译 翻译 


图 10-8 启发 式 栈 解 码 搜索 


10.4.4 MADR 


— ftt FH AY Jig ACER BY BAR BER A 3173 BE d& (cube pruning)， 虽 然 它 在 基于 短语 的 
解码 中 跟 立 方 体 和 剪 枝 都 没关系 ， 也 许 有 序 扩 展 (sorted expansion) 是 个 更 好 的 名 字 。 因 
为 产生 的 绝 大 多 数 翻译 假设 都 被 丢弃 ， 立 方 剪 枝 重 点 扩展 最 有 和 希望 的 那些 翻译 假设 。 为 
此 ， 需 要 对 已 有 的 候选 翻译 和 可 用 的 翻译 选项 排序 ， 然 后 用 最 有 希望 的 翻译 选项 扩展 最 有 
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希望 的 翻译 假设 ， 如 图 10-9 Aras. s B 
假如 希望 使 用 覆盖 了 第 二 个 单词 的 翻译 选 Aag 

项 去 扩展 覆盖 了 第 一 个 词 的 翻译 假设 。 在 这 个 aR So 

例子 中 有 4 个 这 样 的 翻译 假设 和 5 个 翻译 选 EM 

项 一 一 事实 上 真正 的 数量 会 大 得 多 。 原 始 的 柱 Sea —— 

搜索 解码 尝试 所 有 20 种 可 能 一 一 我 们 希望 只 oen Bee: 

是 集中 在 某 个 子 集 上 。 ew pe 15 
最 有 希望 的 新 的 翻译 假设 是 最 好 的 已 有 翻 

译 假设 和 最 好 的 翻译 选项 的 组 合 ， 所 以 从 图 的 ” 男 109 立方 前 枝 ，, 对 翻译 假设 Cy 轴 ) 和 翻 

左上 和 角 开 始 扩 展 。 译 选 项 (z 轴 ) 进行 排序 ， 只 扩展 生 
基于 已 有 翻译 假设 和 可 用 翻译 选项 的 生成 成 最 有 可 能 的 翻译 假设 


代价 ， 可 以 产生 最 好 的 n 个 新 的 翻译 假设 。 然而， 新 的 翻译 假设 的 代价 并 不 是 把 原 有 假设 
的 代价 和 扩展 选项 的 代价 简单 相 加 ， 只 有 当 把 它们 组 合 在 一 起 后 才能 计算 真正 语言 模型 的 
得 分 ， 从 而 得 到 翻译 假设 的 真正 代价 。 

替代 的 办 法 是 : 根据 代价 函数 ， 我 们 挑选 最 有 希望 的 翻译 假设 和 翻译 选项 来 进行 扩 
展 ， 并 总 是 挑选 已 扩展 生成 的 最 佳 翻译 假设 的 相 邻 未 扩展 翻译 假设 进行 扩展 。 

在 上 面 的 例子 中 ， 最 有 希望 的 翻译 假设 位 于 图 的 左上 角 ， 其 真实 代价 是 2.1; 搜索 相 邻 
的 选项 ， 其 代价 分 别 是 2.5 和 2. 9; 然后 使 用 代价 为 2. 5 的 选项 扩展 翻译 假设 ; 依次 类 推 。 


10.4.5 对 数 线 性 模型 和 参数 调 市 

前 面 的 章节 已 经 介绍 了 一 些 可 以 改进 机 器 翻译 模型 的 组 件 : 如 词汇 化 概率 和 词 惩 神 。 从 
数学 上 严格 构建 一 个 包括 众多 组 件 的 模型 是 棘手 的 ， 这 些 组 件 包 括 句子 的 翻译 概率 pCe| D. 
单词 添加 概率 、 独 立 性 假设 和 回 退 等 。 因 此 还 是 放弃 这 种 想法 比较 好 ， 而 把 模型 清楚 地 表 
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Zh 2S A RIUREAE PA: 的 加 权 组 合 ， 根 据 特征 的 重要 性 分 配 权 值 (4;): 
piel D = [[hi (e, D? 
: (10. 14) 
logp(e | D — »'Ailog h; Ce.f) 


ix HE PE PLA TE 10. 4. 1 节 介 绍 的 基于 短语 的 翻译 模型 的 组 件 : 如 语言 模型 
him (esf) 二 prm 和 短语 翻译 模型 hy(e,f) = >) 8 Cfi le). 

既然 为 特征 函数 访 引入 了 权重 和 i， 那么 如 何 设置 这 些 权 重 呢 ?对 于 一 个 外 语句 子 f， 
每 个 特征 函数 都 与 英语 句子 e 是 否 是 一 个 好 的 翻译 有 关联 。 通 过 衡量 这 些 特征 函数 的 重要 
性 可 以 优化 整体 翻译 的 质量 。 

这 正 是 结束 目 动 评价 指标 讨论 的 时 候 : 给 定 一 个 由 外 语 输 入 句子 和 它们 的 参考 译文 构 
成 的 调 参 集 (tuning set) ， 基 于 任意 给 定 的 权重 集合 {XA;}， 使 用 我 们 的 模型 和 人 解码 器 翻译 
这 个 调 参 集 ， 并 自动 计算 输出 结果 的 BLEU 值 。 然 后 改变 权重 集合 并 重新 解码 ,判断 
BLEU 值 是 否 有 提高 。 在 这 里 ， 面 对 的 是 一 个 定义 良好 的 多 维 参 数 优 化 问题 ， 通 常 称 为 调 
参 或 最 小 错误 率 训 练 (Minimum Error Rate Training, MERT), 

因为 解码 是 非常 耗 时 的 工作 ， 所 以 采用 一 种 快捷 的 方式 : 为 每 个 输入 的 句子 产生 n-best 
译文 ， 然 后 基于 这 些 n-best 译文 优化 权重 。 一 种 常用 的 方法 [31] 是 一 次 只 优化 一 个 权重 。 
当 固 定 其 他 权重 的 时 候 ， 是 有 可 能 找到 这 个 权重 的 最 优 解 的 。 然 而 ， 这 种 方法 被 限制 在 一 个 
区 域内 搜索 ， 很 可 能 陷入 局 部 最 优 ， 因 此 随机 化 权重 并 重新 开始 是 有 必要 的 。 男 外 ， 也 可 以 
重新 运行 解码 过 程 ， 从 而 避免 基于 不 能 代表 整个 搜索 空间 的 n-best 列表 进行 优化 。 


10. 4.6 控制 模型 的 大 小 


基于 短语 的 翻译 模型 构建 的 短语 翻译 表 远 远大 于 双语 平行 语 料 本 身 的 大 小 ， 这 种 情况 
并 不 是 很 直观 。 设 想 一 下 ， 长 度 为 n 的 句子 包含 的 短语 数 是 O(n , 

典型 地 ， 训 练 语 料 有 数 百 万 的 句 对 ， 构 建 的 短语 翻译 表 通 常会 达到 千 兆 字 节 级 的 规模 。 
即使 有 摩尔 定理 ， 也 经 历 了 很 长 一 段 时 间 才 使 基于 短语 的 翻译 模型 进入 实用 阶段 ， 但 是 即使 
现在 也 不 能 在 内 存 中 保存 大 规模 的 模型 。 如 果 尝 试 把 统计 机 器 翻译 系统 应 用 到 掌上 设备 ， 那 
么 这 种 情况 就 变 得 更 严重 。 

已 经 提出 了 很 多 种 解决 办 法 ， 从 短语 翻译 表 的 有 效 存 储 到 过 滤 和 剪 枝 。 下 面 了 解 一 下 
这 些 解 决 办 法 。 

上 面 已 经 提 到 短语 翻译 表 比 原始 语料库 要 大 得 多 ， 一 种 令 人 感 兴趣 的 方法 是 根本 不 存 
储 短语 表 ， 而 仅 存储 原始 语料库 。 当 然 ， 给 定 一 个 源 语 言 句 子 ， 必 须 能 够 快速 找到 与 之 匹 
配 的 源 语 言 短语 〈 和 它们 的 翻译 ) ， 因 此 有 人 提出 使 用 后 组 数组 的 方法 [32 ]. 

后 缀 数组 是 一 种 包含 语 料 中 所 有 后 缀 的 有 序列 表 的 数据 结构 。 可 以 把 后 缀 看 作 是 一 个 
很 长 的 短语 ， 这 个 短语 从 语 料 的 任何 一 个 位 置 开始 到 语 料 的 最 后 位 置 结 束 。 所 有 后 级 的 数量 
与 语 料 中 单词 的 个 数 是 一 致 的， 因此 有 序 的 索引 也 与 单词 的 个 数 保持 一 致 。 当 查找 输入 句子 
的 某 个 后 缀 时 ， 可 以 使 用 索引 找到 任意 多 的 匹配 ， 然 后 根据 〈 也 被 保存 的 ) 词 对 齐 和 语 料 的 
目标 端 语句 在 线 抽取 匹配 的 短语 。 

然而 ， 如 果 语 料 的 规模 实在 太 大 ， 就 需要 对 保存 在 内 存 中 的 数据 做 出 更 多 的 限制 。 值 
得 注意 的 是 ， 对 于 单个 句子 的 翻译 ， 仅 会 用 到 短语 翻译 表 中 很 小 的 一 部 分 。 可 以 不 用 加 载 
整个 短语 表 到 内 存 中 ， 而 是 过 滤 到 只 剩 下 需要 的 部 分 。 过 滤 经 常用 在 实验 中 ， 因 为 在 实验 
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中 会 重复 使 用 包括 几 千 条 句子 的 测试 集 。 

如 果 想 要 开发 一 个 提供 在 线 服务 的 机 器 翻译 系统 ， 就 没有 时 间 过 滤 千 兆 级 的 数据 ， 除 非 能 
够 以 一 种 非常 有 效 的 数据 结构 把 短语 翻译 表 存 储 在 磁盘 上 ， 这 种 数据 结构 适合 快速 查找 短语 ， 
AUBUZR [33]. | 

最 后 ， 在 认真 观察 短语 翻译 表 后 会 意识 到 它们 中 的 大 部 分 并 不 起 作用 : 很 长 的 短语 对 
和 数 以 千 计 包含 句号 的 短语 对 ( 包 插 逗号 的 更 多 )， 被 使 用 的 可 能 性 都 比较 低 。 那 么 ， 为 

349| ”什么 不 清理 短语 翻译 表 呢 ?基于 显著 性 的 测试 可 以 忽略 掉 一 些 短语 对 ， 如 测试 高 于 随机 产 
生 的 次 数 (more-than-random occurrence) [34] 或 者 对 数 似 然 率 (log-likelihood ratios) 
L35j。 在 第 二 趟 抽取 短语 对 的 阶段 也 许可 以 考虑 上 面 提 到 的 那些 因素 ， 这 一 阶段 并 不 抽取 
质量 差 的 短语 对 [36]. 

也 许 只 需要 抽取 能 够 解释 每 一 个 训练 句 对 的 最 短 的 短语 对 [37]， 这 也 是 二 元 组 翻译 
模型 的 基本 思想 [38，39]， 它 是 基于 短语 翻译 模型 的 一 个 变 体 。 或 者 ,通过 察看 一 个 短 
语 对 在 解码 过 程 中 被 使 用 的 频繁 程度 或 出 现在 最 佳 翻 译 结果 中 的 频繁 程度 ， 从 而 对 短语 翻 
译 表 进行 剪 校 [40，41]。 最 后 ，Kutsumi 等 人 [42] 使 用 支持 向 量 机 的 方法 清理 短语 表 。 


10.5 基于 树 的 翻译 模型 

任何 有 一 些 语言 学 背景 的 读者 都 会 认为 我 们 的 模型 是 粗糙 、 毫 无 希望 的 。 语 言 的 最 基 
本 的 概念 是 递归 ， 句子 是 由 从 名 构成 的 ， 从 旬 是 由 动词 、 名 词 短 语 等 组 成 。 名 词 短 语 也 可 
能 包括 从 名 ， 同 样 由 动词 和 诸如 此 类 的 成 分 构成 。 事 实 上 ， 所 有 现代 的 句法 理论 都 把 句子 
看 作 有 层次 的 树 结构 ， 而 不 是 由 单词 组 成 的 串 。 

对 于 统计 机 器 翻译 的 研究 者 来 说 ， 上 面 提 到 的 任何 一 件 都 不 是 令 人 意外 的 事 。 句 法 树 
的 使 用 一 一 不 管 是 使 用 句法 分 析 器 还 是 从 语料库 中 目 动 学 习 树 结构 的 方式 一 一 从 20 世纪 
90 年 代 中 期 开始 就 是 统计 机 需 翻 译 研 究 范畴 中 一 直 被 关注 的 方向 。 然 而 ， 直 到 最 近 基 于 
树 的 翻译 模型 在 正面 的 交锋 中 都 没有 胜 过 更 简单 的 基于 短语 的 翻译 模型 。 

原因 之 一 是 基于 树 结构 的 操作 更 复杂 ， 因 此 需要 计算 上 更 耗 时 的 学 习 方 法 ， 同 时 也 使 
得 解码 过 程 中 的 搜索 更 困难 。 约 束 源 语言 句法 树 和 目标 语言 句法 树 具有 茶 种 形式 的 同 构 关 
系 《 如 仅 允 许 子 节点 之 间 的 调 序 并 且 没 有 重大 的 重 构 ) 可 以 简化 模型 ， 但 这 种 约束 也 被 证 
实 是 太 强 的 约束 。 

基于 句法 的 方法 的 另 一 个 问题 是 : 首先 假设 句法 树 是 正确 的 ， 但 到 目前 为 止 还 没有 可 
用 的 足够 好 的 句法 分 析 融 。 

当前 的 基于 树 的 方法 借鉴 基于 短语 模型 的 成 功 之 处 ， 可 以 看 作 是 基于 短语 方法 的 扩展 。 


10.5.1 层次 短语 翻译 模型 
正如 定义 所 示 ， 基 于 短语 的 模型 的 一 个 限制 是 不 允许 有 不 连续 的 短语 。 例 如 ， 可 能 期 
望 映 射 如 下 的 类 语 和 法 语 对 : 





does not X — ne X pas 
然而 基于 同步 上 下 文 无 关 文 法 可 以 表达 上 面 的 映射 关系 ， 这 种 方法 区 分 终结 符 CHR 
词 ) 和 非 终结 符 〈X) 。 一 条 文法 规则 可 能 包括 多 个 非 终结 符 : 
Xi of Xz Xo Xi 
我 们 已 讨论 过 基于 短语 的 模型 ， 可 以 把 上 面 的 规则 理解 为 在 已 经 被 抽取 了 子 短语 对 的 
短语 之 间 映 射 。 如 果 人 允许 这 样 的 规则 ， 就 能 更 好 地 解释 某 些 特定 的 调 序 现象 、 功 能 词 of 
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的 角色 和 不 连续 的 短语 。 

从 词 对 齐 的 双语 平行 语料库 中 抽取 层次 短语 对 Chierarchical phrase pair) [43] 的 方 
法 是 很 直观 的 。 除 了 所 有 原始 的 词汇 化 短语 对 外 ， 
还 必须 检查 每 个 短语 对 中 是 否 有 子 短语 对 ， 并 把 它 
们 替换 为 非 终结 符 。 那 么 ， 就 可 以 把 层次 短语 对 添 
加 到 短语 翻译 表 中 。 请 看 图 10-10 中 的 例子 。 

抽取 子 短 语 对 可 能 会 迅速 增 大 短语 对 的 数量 ， 
因此 必须 引入 一 些 合理 的 约束 ， 如 短语 对 中 最 少 要 
包括 一 个 单词 、 短 语 最 多 能 包括 的 单词 个 数 等 。 

很 明显 ， 增 加 层次 短语 对 是 有 利 的 ， 但 是 会 使 
在 10. 4. 3 节 中 介绍 的 解码 算法 失效 ， 这 种 算法 要 求 
从 左 到 右 构 建 翻译 结果 。 当 增加 了 诸如 ne X pas 之 图 10-10 学 习 层次 短语 翻译 规则 ， 从 短 
类 的 短语 后 ， 如 何 从 左 到 右 构 建 一 个 句子 ? BADR Cae e 

有 一 个 源 自 句法 文法 的 很 直接 的 解决 办 法 ， 这 rd 


1 i (schnell, quickly) 就 可 以 年 
是 一 个 句法 分 析 问 题 ， 必 须 使 用 句法 分 析 算 法 ， 如 schnell guck RN 
线 图 分 析 译 规 则 (geht x auf, opens x) 


10.5.2 线 图 解码 


线 图 解码 不 是 从 左 到 右 进 行 解码 ， 而 是 从 底 向 上 进行 解码 。 首 先 找 出 每 个 单词 的 翻 
译 ， 然 后 找 出 跨度 为 2 的 短语 的 翻译 ， 再 找 出 跨度 为 3 的 短语 的 翻译 ， 依 次 类 推 直 到 覆盖 
整个 句子 ， 如 图 10-11 fra. | 


EE o o s.l]. | | 








图 10-11 基于 树 的 模型 的 解码 ， 一 个 栈 代 表 一 个 输入 单词 〈 底 层 行 )， 更 高 层 的 栈 代 表 连 续 的 块 


例如 ， 把 下 面 的 句子 翻译 为 英语 : 


Je ne parle pas anglais. 


首先 可 以 使 用 许多 传统 的 短语 翻译 规则 ， 这 些 规则 构成 线 图 的 条 目 : 


je ne parle pas anglais 
然后 使 用 层次 短语 规则 (这 里 X 匹配 speak): 
ne X pas—>do not X 
这 样 就 可 以 添加 线 图 条 目 do not speak : 


je me parle pas anglais 
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最 后 ， 使 用 黏合 〈glue) 规则 : 


Xi X2» X1 X» 
两 次 使 用 上 面 的 规则 就 可 以 得 到 完整 的 输出 : 








je me 


I do not speak English 


parle 












anglais 





pas 


算法 10-3 给 出 了 线 图 解码 算法 的 大 概 步骤 。 实 际 上 ， 需 要 许多 改进 的 措施 ， 如 避免 
遍历 所 有 可 能 的 序列 OAS 4 行 开 始 ) 和 所 有 规则 (从 第 5 行 开 始 ) 的 循环 ， 全 部 遍历 计 
算 代价 大 高 。 当 为 一 个 跨度 增加 新 的 线 图 条 目 时 ,需要 采用 能 有 效 地 搜索 底层 线 图 条 目 和 
可 用 规则 的 方法 ， 例如， 使 用 Earley 句法 分 析 。 


算法 10-3 线 图 解码 算法 的 核心 代码 


MA: 外 文句 子 f= f, 
输出 : 英文 翻译 e 
1: for span KÆ 1 — 1 ~ l; do 


2: for start=0 .. lr-l do // 跨度 的 开始 

3: end = start--l 

4: for all 由 span [start,end] 中 的 线 图 条 目 和 词 所 构成 的 序列 3 do 
5: for all 规则 r do 

6: if 规则 ?适用 于 浅 图 序列 s then 

T: 建立 新 的 线 图 条 目 c 

8: 将 线 图 条 目 c 加 入 图 中 

9: end if 

10: end for 

11: end for 

12: end for 

13: end for 

14: return [0/5] 中 最 佳 线 图 条 目 所 对 应 的 英文 翻译 e 


10.5.3 基于 句法 的 模型 


在 发 展 为 层次 短语 模型 后 ， 构 建 基 于 句法 的 模型 并 不 算 很 大 的 跨越 ， 这 种 模型 使 用 句 


子 构成 成 分 的 真实 标记 如 VP 和 NP. 
除了 词 对 齐 的 平行 双语 语料库 外 ， 还 需 
要 源 语言 、 目 标语 言 或 者 双方 进行 句法 
标注 ， 如 图 10-12 所 示 。 

源 语言 端的 句法 作为 选择 规则 的 约 
束 。 目 标语 言 端的 句法 要 求 翻译 输出 结 
果 的 句法 分 析 结 果 是 一 棵 树 ， 因 此 除了 
通过 nn 元 组 语言 模型 保证 输出 结果 的 流 
畅 外 ， 还 保证 了 输出 结果 具有 良好 的 名 

举 个 例子 ， 法 语 动词 的 否定 形式 如 
下 所 示 : 

VP:ne V pas — VP:do not V 

增加 句法 标记 时 应 保持 几 分 警惕 ， 


DET The 
NP —N garage 
S N door 


b V opens 
VP 
ADV quickly 





图 10-12 ”抽取 句法 翻译 规则 : 从 图 10-10 中 层次 短语 对 
的 例子 ， 获 取 短 语 对 (geht x auf, opens x). 
句法 标记 用 来 区 别 各 种 非 终结 符 ， 得 到 规则 
VP: geht ADV auf— VP: opens ADV 
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因为 基于 短语 的 模型 中 的 短语 不 必 匹 配 句法 树 中 的 成 分 。 既 然 每 个 线 图 条 目 都 需要 一 个 成 分 
标记 ， 那 么 有 两 种 选择 : 1) 目标 端的 短语 必须 是 单一 的 句法 成 分 ; 2) 创造 一 个 人 工 标记 。 
举 个 例子 ， 在 短语 模型 中 ， 可 能 有 以 下 的 规则 : 
der gro fe — the big 
当 在 目标 端 增加 句法 标记 的 时 候 ， 选 择 1 必须 扩展 规则 使 其 覆盖 包括 the big 的 整个 
名 词 短语 ; 
der große X — NP:the big N 
选择 2 必须 创建 新 的 标记 ， 如 : 
der große — DT + J:the big 
两 种 选择 都 有 缺点 : 选择 1 抛弃 了 许多 作为 潜在 规则 的 短语 对 ， 限 制 了 从 平行 语料库 
中 抽取 到 的 知识 。 选 择 2 导致 了 非 终结 符 的 快速 增长 ， 增 加 了 解码 的 难度 。 
在 基于 句法 的 模型 中 使 用 的 第 三 种 选择 是 二 又 化 句法 树 ， 从 而 使 得 对 符合 句法 成 分 的 
短语 的 限制 不 是 那么 严格 。 


10.6 语言 学 挑战 

到 目前 为 止 , 并 没有 对 翻译 本 身 的 性 质 给 予 足 够 的 关注 。 大 多 数 读 者 ， 特 别 是 学 习 过 
第 二 种 语言 的 读者 ， 对 于 是 什么 导致 翻译 困难 会 有 一 个 直观 的 理解 : 在 源 语 言 中 的 单词 有 
多 个 不 同 的 意思 ， 因 此 对 应 不 同 的 翻译 结果 ; 两 种 语言 的 词 序 也 可 能 不 同 ; 在 句子 中 词 之 
间 的 关系 也 可 能 以 不 同 的 方式 表示 一 一 形态 学 标记 、 功 能 词 或 词 序 。 

所 有 这 些 问题 都 是 统计 机 器 翻译 系统 应 该 解决 的 问题 。 虽 然 我 们 声称 书 中 介绍 的 机 器 
翻译 方法 是 语言 无 关 的 ， 但 实际 上 如 果 两 种 语言 之 间 有 几乎 相同 的 词 序 、 相 似 的 概念 和 隐 
喻 ， 并且 目 标 端 语言 形态 学 变化 简单 ， 那 么 翻译 的 效果 会 更 好 。 例 如 ， 机 器 翻译 系统 把 法 
语 翻译 成 英语 时 效果 较 好 ， 但 把 中 文 翻译 成 土耳其 语 时 效果 就 比较 差 。 


10.6.1 译 词 选择 


计算 语言 学 中 一 个 常见 的 问题 是 词义 消 歧 ， 像 interest 和 bank 这 样 的 单词 有 多 个 意 
思 。 这 个 问题 在 机 器 翻译 中 就 表现 为 译 词 选择 ， 也 就 是 说 在 翻译 成 德语 时 ， 是 把 bank Bl 
译 成 Bank 还 是 Ufer， 是 选择 与 财富 相关 还 是 与 河流 相关 的 意思 。 

词义 消 歧 的 研究 表明 : 局 部 上 下 文 ( 相 邻 的 单词 或 者 词性 标记 )、 在 更 大 范围 内 的 功 
能 词 、 词 的 语义 角色 和 句法 上 相关 的 词 都 能 够 指示 词 的 意义 。 

实际 上 ,使 用 nn 元 语言 模型 已 经 能 够 有 效 地 捕捉 到 局 部 上 下 文 的 信息 ， 这 些 信息 非 党 
有 利于 翻译 时 选择 正确 的 词汇 。 词 的 先 验 概率 也 是 有 用 的 : bank 表示 财富 相关 的 词义 比 
表示 为 与 河流 相关 的 词义 更 频繁 。 因此， 统计 机 器 翻译 系统 在 译 词 选择 上 处 理 得 相当 好 ， 
显然 要 好 于 传统 的 基于 规则 的 系统 。 

然而 ， 近 年 来 许多 研究 人 员 针 对 统计 机 器 翻译 中 的 词义 消 歧 问题 展开 研究 ， 通 过 在 模 
型 中 集成 一 些 前 面 提 到 的 额外 的 特征 ， 取 得 了 一 定 的 效果 。 把 传统 的 条 件 概率 分 布 一 基 
于 单词 的 或 基于 短语 的 一 一 转换 为 更 复杂 的 分 类 峰 是 比较 直观 的 方法 。 

一 种 常用 的 方法 是 使 用 最 大 炉 方 法 集成 源 语言 句子 中 的 任意 特征 。 集 成 目标 语言 问 句 
子 的 特征 是 比较 难 的 ， 因 为 在 柱 搜索 解码 算法 中 句子 通常 都 处 于 分 割 的 状态 。 如 果 假 设 一 
个 单词 的 翻译 取决 于 目标 端 句子 的 第 一 个 单词 ， 那 么 就 不 能 重合 并 第 一 个 单词 不 同 的 翻译 
假设 。 
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10.6.2 形态 学 


目前 已 经 介绍 的 翻译 模型 都 是 基于 单词 的 表层 形式 的 。 例 如 ， 它 们 认为 单数 形式 的 
house 与 复数 形式 的 houses 是 没有 关联 的 。 因 为 统计 机 器 翻译 中 的 绝 大 多 数 研究 都 把 英语 
作为 目标 语言 ， 而 英语 的 形态 变化 又 相对 简单 ， 所 以 形态 学 一 直 不 被 认为 是 应 该 优先 考虑 
的 问题 。 诚 然 ， 把 house 和 houses 当 作 两 个 完全 不 同 的 单词 会 丢失 一 些 泛 化 信息 ， 但 是 这 
样 可 以 使 模型 比较 简单 ， 或 许 能 够 较 好 地 区 分 单数 形式 和 复数 形式 的 翻译 。 

然而 ， 当 把 输入 句子 翻译 成 形态 丰富 的 语言 的 时 候 ， 如 土耳其 语 、 匈 牙 利 语 、 捷 克 语 
和 德语 ， 形 态 学 就 变 成 了 一 个 非常 重要 的 问题 。 首 先 应 该 想到 的 就 是 丰富 的 形态 学 将 导致 
更 多 的 词汇 量 ， 因 此 在 模型 估计 时 会 有 严重 的 数据 稀疏 问题 。 

其 次 ， 当 翻译 成 形态 丰富 的 语言 时 ， 从 局 部 上 下 文通 常 很 难 区 分 应 该 选择 哪 种 形态 变 
体 。 例 如 ， 当 把 theman 翻译 成 德语 时 ， 可 以 选择 der Mann, des Mannes, dem Manne 和 
den Mann 作为 它 的 翻译 。 哪 个 是 正确 的 翻译 取决 于 这 个 名 词 短 语 与 其 句法 中 心 词 的 关系 ， 
例如 ， 是 主语 还 是 宾语 ? 

因子 化 翻译 模型 (factored translation model) [44] 提出 不 是 把 单词 看 作 简 单 的 词 元 ， 
而 把 它 看 作 各 种 因子 组 成 的 矢量 ， 如 原形 、 词 性 标记 、 性 和 数 等 。 在 模型 中 包含 这 样 的 附 
加 信息 有 两 个 好 处 : 首先 ， 在 原形 之 间 而 不 是 词 的 表层 形式 之 间 翻 译 有 利于 泛 化 ; 其 次 ， 
丰富 了 模型 能 够 利用 的 信息 ， 也 就 是 说 ， 可 以 基于 词性 标记 调 序 、 或 基于 形态 学 标记 检查 
语法 的 一 致 性 。 

在 基于 短语 的 模型 中 增加 因子 化 的 表示 ， 丰 富 了 源 语 言 端 的 输入 信息 ， 从 而 在 目标 端 
可 以 更 好 地 选择 形态 ， 提 高 翻译 输出 的 语法 一 致 性 ， 较 好 地 翻译 少见 的 形态 学 变化 。 这 种 
方法 同时 也 带 来 了 风险 ， 因 为 假设 这 些 过 程 之 间 是 相互 独立 的 ， 从 而 把 短语 翻译 分 解 成 几 
个 独立 的 映射 过 程 。 如 果 形 态 丰 富 的 短语 在 语料库 中 出 现 的 频率 较 高 ， 那 么 就 可 以 较 好 地 
翻译 它们 ， 此 时 把 这 种 短语 的 翻译 分 解 为 多 个 更 细 粒 度 的 步骤 只 会 带 来 坏处 一 一 就 像 一 次 
性 翻译 一 个 长 的 短语 (如果 可 能 的 话 ) 的 效果 比 逐 词 翻译 的 效果 更 好 。 


10.6.3 iW 

句子 由 一 个 或 多 个 从 句 组成， 每 个 从 句 以 动词 为 中 心 ， 同 时 包括 动词 的 论 元 和 修饰 
语 ， 用 来 描述 一 个 动作 。 像 英语 这 样 的 语言 利用 语序 来 确定 句子 中 的 实体 哪个 是 主语 、 哪 
个 是 宾语 ， 以 及 它们 的 角色 是 什么 。 

英语 是 一 种 SVO 语序 的 语言 (English is an SVO language), BRA—TPMA DH 
是 以 主语 (English) 开头 、 随 后 是 动词 Gis) 和 若干 宾语 (an SVO language)。 其 他 的 
语言 或 许 有 不 同 的 词 序 规定 ， 如 VSO 或 SOV。 这 为 机 器 翻译 提出 了 一 个 直接 的 问题 : 单 
词 在 翻译 成 目标 语言 时 需要 重新 排列 。 

调 序 是 因为 句法 的 不 同 而 产生 的 ， 这 个 见解 是 10. 5 节 讨 论 的 基于 树 的 翻译 模型 的 主要 驱动 
力 之 一 。 如 果 能 够 获得 输入 句子 的 句法 树 ， 或 在 翻译 时 构建 输出 句子 的 句法 树 ， 那 么 表层 的 任 
意 移动 (例如 ， 一 个 单词 向 左 移动 9 个 位 置 ) 体现 在 句法 树 上 仅仅 是 子 节点 的 重 排序 。 

一 般 来 说 ， 使 用 基于 树 的 模型 是 相当 复杂 的 ， 因 此 提出 了 一 些 简化 的 方法 用 来 在 统计 
机 器 翻译 中 集成 句法 树 信息 。 一 种 思想 是 ， 在 实际 翻译 前 对 输入 句子 预 排 序 (pre-reor- 
der) 。 预 排序 的 目的 是 : 在 保留 所 有 单词 的 情况 下 ， 按 照 输出 译文 的 期 望 顺序 对 输入 句子 
重 排序 。 预 排序 可 以 根据 手写 的 规则 〈 因 为 我 们 主要 担心 众所周知 的 长 距离 的 移动 )， 或 
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者 从 词 对 齐 的 源 端 已 标注 的 平行 语料库 自动 学 习 到 的 规则 ， 甚 至 仅仅 使 用 词性 标记 。 预 排 
序 后 可 以 选 定 唯 一 的 输入 序列 ， 或 者 保留 多 个 潜在 的 选择 。 这 样 做 的 目的 是 期 望 基于 短语 
的 模型 能 够 更 容易 地 翻译 重 排序 后 的 输入 ， 有 些 输 入 甚至 在 翻译 中 不 再 允许 调 序 。 

另 一 类 语言 中 词 的 顺序 是 自由 的 ， 不 能 被 简单 地 归 类 为 SVO 或 VSO。 回 顾 一 下 ， 固 
定 词 序 的 目的 是 定义 句子 中 不 同 成 分 之 间 的 关系 ， 例 如 名 词 短语 与 动词 之 间 的 关系 。 有 些 
语言 使 用 不 同 的 手段 来 定义 这 种 关系 : 标记 或 名 词 格 ， 例 如 ， 在 日 语 中 就 使 用 了 标记 。 一 
个 说 英语 的 人 应 该 也 熟悉 这 种 概念 : 介词 扮演 了 几乎 同样 的 角色 (from the house 与 to the 
house)。 名 词 的 格 能 改变 单词 的 表面 形式 ,例如 : der Mann 是 主语 ， 而 dem Manne 是 
Fe is 

在 统计 机 器 翻译 中 ， 如 何 翻译 使 用 不 同 手段 定义 句法 关系 的 两 种 语言 并 没有 得 到 充分 
的 研究 部 分 原因 是 因为 大 多 数 研 究 把 英语 作为 目标 输出 语言 ， 而 通过 ?元 语言 模型 可 
以 较 好 地 处 理 英语 中 国定 的 词 序 。 


10.7 工具 和 数据 资源 


虽然 构建 机 器 翻译 系统 是 一 项 复杂 的 任务 ， 但 使 用 一 些 可 获得 的 开源 软件 和 数据 资源 
使 得 完成 该 任务 比较 方便 。 应 该 留意 任何 最 新 的 发 展 情况 ， 这 里 只 列 出 一 些 最 常用 的 软件 
和 资源 。 


10.7.1 BALR 


除了 句子 对 齐 和 词 对 齐 这 两 项 不 平凡 的 任务 外 ， 统 计 机 器 翻译 系统 的 其 他 训练 过 程 的 
实现 也 是 相当 直观 的 。 

在 原始 资料 中 (例如 ， 一 本 书 及 其 翻译 或 多 语言 的 网 站 ) 找到 的 已 经 翻译 的 文本 很 少 
是 句子 对 齐 的 格式 ， 而 这 种 格式 又 是 必需 的 。 因 此 ， 第 一 步 工 作 就 是 为 每 个 句子 找到 对 应 
的 翻译 。 

最 简单 的 方法 是 基于 句子 的 长 度 进行 相似 度 度量 ; 更 复杂 些 的 方法 还 可 以 利用 双语 词 
典 的 信息 。 一 种 广泛 使 用 的 用 于 句子 对 齐 的 工具 是 Hunalign? ， 这 种 工具 利用 上 面 的 两 种 
信息 来 确定 最 好 的 对 齐 关 系 ， 也 具有 过 滤 掉 潜在 不 匹配 句 对 的 功能 。 

在 10.3 节 中 详细 讨论 了 词 对 齐 的 问题 。GIZA 十 + 工具 包 S 是 较 早 提出 的 通用 IBM 模 
型 的 开源 实现 ， 使 用 范围 很 广 。 最 近 ， 词 对 齐 的 问题 再 次 受到 研究 机 构 的 重视 。Berkeley 
word aligner 号 是 受 重视 的 一 个 成 果 ， 这 种 工具 把 对 称 化 思想 〈 回 顾 10. 3. 5 节 ) 更 紧密 地 
融入 到 词 对 齐 方法 中 。 

对 机 器 翻译 来 说 ， 语 言 模 型 的 使 用 是 必需 的 。 大 多 数 情况 下 ， 机 器 翻译 系统 集成 现 有 的 
语言 模型 工具 和 库 ， 而 不 是 再 次 开发 。 最 流行 的 工具 是 开源 的 SRILM TREAS, BARA 
了 十 多 年 的 时 间 。 更 新 的 工具 是 IRSTLM 工具 包 因 ， 使 用 压缩 表示 和 可 扩展 训练 方法 构建 大 规 
模 的 语言 模型 ( 数 以 亿 计 的 单词 )。 还 值得 一 提 的 是 randLM T-R-£25 ， 使 用 一 种 有 损 数据 结构 
来 更 有 效 地 存放 如 此 大 规模 的 语言 模型 。 





http: //mokk. bme. hu/resources/hunalign/ 。 
http://www. fjoch. com/GIZA 4- +. html, 

http: / /nlp. cs. berkely. edu/Main. html # WordAligner, 
http://www. speech. sri. com/ projects/srilm, 

http; / / htk. fbk. eu/en/irstlm. 

http; / / sourceforge. net/ projects/ randlm/ , 
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10.7.2 机 器 翻译 系统 


整个 机 需 翻 译 系统 一 一 包括 训练 程序 和 解码 器 一 一 均 能 通过 开源 许可 的 方式 获得 。 
最 常用 的 工具 是 Moses? ， 实 现 了 本 章 中 介绍 的 大 部 分 方法 ， 并 利用 现 有 的 工具 完成 了 
词 对 齐 和 语言 模型 的 建立 。 较 新 的 工具 如 Joshuae 解码 器 ， 主 要 着 重 于 基于 层次 的 模型 和 基 
于 句法 的 模型 的 开发 。 
尽管 在 本 章 没 有 提 及 基于 规则 的 机 器 翻译 ， 但 目前 为 止 还 有 很 多 商用 翻译 系统 基于 手 
写 的 规则 。 典 型 地 ， 这 些 系统 在 翻译 决策 时 可 以 利用 更 详细 的 知识 ， 但 不 能 使 用 语言 模型 
和 其 他 概率 加 权 的 决策 过 程 。 无 论 如 何 ， 这 仍然 是 机 器 翻译 领域 一 个 活跃 的 方向 。 开 源 的 
Apertium M H 9? 旨 在 为 许多 语言 对 建立 基于 规则 的 机 器 翻译 系统 。 
10.7.3 平行 语 料 
最 后 ， 但 也 是 最 重要 的 是 ， 必 须 有 已 经 翻译 好 的 文本 作为 统计 机 器 翻译 系统 的 训练 语 
料 一 一 越 多 越 好 ， 与 你 感 兴趣 的 领域 越 接近 越 好 。 
实际 上 机 器 翻译 系统 中 使 用 的 所 有 平行 语 料 都 是 现成 的 语 料 ， 也 就 是 说 ， 它 们 是 因为 
别 的 目的 而 建立 的 ， 然 后 被 应 用 到 机 器 翻译 的 研究 中 。 这 些 语 料 的 最 主要 来 源 是 政府 〈 如 
加 拿 大 的 法 语 - 英 语 语 料 ) 和 国际 组 织 〈 联 合 国 、 欧 洲 议会 )。 当 今 多 数 的 翻译 产生 于 经 济 
领域 (如 产品 文档 、 营 销 材 料 ) ， 但 其 所 有 者 严格 地 保护 着 这 些 材料 。 一 个 有 和 希望 的 新 方 
向 是 利用 网 络 合作 的 力量 创建 翻译 语 料 一 一 流行 的 方式 是 维基 翻译 (wiki translation) 和 
众 包 (crowd sourcing) 。 
下 面 是 一 些 常 用 语 料 的 简单 列表 : 
* Canadian Hansards® 由 加 拿 大 议会 记录 组 成 ， 包 括 英 语 和 法 语 。 
。 欧洲 议会 语 料 呈 由 已 翻译 的 欧洲 议会 记录 组 成 包括 11 种 语言 ， 每 种 语言 大 约 有 4000 
万 单词 。 
e Acquis corpus? 由 欧盟 成 员 国 必须 提交 的 法 律 文档 组 成 。 这 些 语 料 包括 22 种 语言 ， 
每 种 语言 达到 4000 万 单词 。 
。 OPUS 项目 旬 收集 了 很 多 来 源 的 平行 语 料 ， 包 括 开 源 的 文档 和 电影 对 日 。 
。 LDC® 是 计算 语言 学 领域 最 主要 的 语 料 来 源 。 该 组 织 也 发 布 平行 语 料 ， 特 别 是 阿拉 
伯 语 -英语 对 和 中 文 -英语 对 ， 这 两 种 语言 对 是 最 近 美 国 赞 助 的 研究 计划 的 目标 。 


10.8 未 来 的 方向 


尽管 统计 机 器 翻译 已 经 有 20 多 年 的 历史 ， 但 它 仍 然 非 常 活跃 。 这 个 领域 非常 注重 评 
测 活动 ， 因 此 更 关注 性 能 而 不 是 新 奇 的 想法 ， 这 导致 了 被 证 明 的 有 效 新 方法 的 快速 采用 。 
下 面 简要 介绍 当前 研究 的 一 些 主 要 问题 。 


http://www. statmt. ort/moses/ o 

http: / / sourceforge. net/ projects/joshua, 

http://www. apertium. org/ , 

部 分 语 料 可 从 http://www. isi. edu/natural-language/download/hansard/18 3$]; 更 多 语 料 可 通过 LDC 获取 。 
http://www. statmt. org/ europarl/ 。 

http; / / wt. jrc. it/It/ Acquis/, 

http; //urd. let. rug. nl/tiedeman/OPUS/, 

http://www. lde. upenn. enu/, 
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以 来 都 是 基于 训练 语 料 中 体现 的 概率 分 布 估计 参数 ， 但 研究 者 们 还 是 有 浓厚 的 兴趣 尝试 使 
用 更 先进 的 机 需 学 习 方 法 。 当 前 的 系统 依靠 两 种 方法 的 融合 : 生成 模型 (例如 ， 短 语 翻 译 
概率 ) 和 判别 式 训练 (参数 调节 ， 参 见 10. 4. 5 节 )。 

基于 句法 的 模型 的 研究 也 非常 活跃 ， 有 许多 待 解决 的 问题 : 是 用 短语 结构 文法 还 是 依 
存 文法 来 表示 句法 ， 特定 的 文法 形式 体系 和 有 效 的 解码 算法 等 。 

统计 模型 的 训练 对 平行 语 料 的 依赖 性 使 得 大 家 非常 关注 语 料 资源 缺乏 的 情况 。 如 何 才 
能 使 用 可 比 语 料 或 者 纯粹 的 单 语 语 料 ? 如 何 处理 小 规模 的 领域 内 语 料 和 大 规模 的 领域 外 语 
BL? 可 以 以 用 户 与 机 器 翻译 系统 交互 的 形式 作为 额外 的 训练 语 料 ， 从 而 提高 系统 的 效 
AR? 

最 后 ， 因 为 机 条 翻译 与 其 他 的 信息 处 理应 用 有 密切 关联 ， 所 以 把 统计 机 器 翻译 集成 到 
这 些 应 用 中 也 是 很 吸引 人 的 。 

最 近 的 人 研究 已 经 尝试 了 两 种 应 用 。 第 一 种 ， 语 音 翻 译 系 统 的 目的 是 集成 语音 识别 、 机 
名 翻译 和 语音 合成 。 第 二 种 ， 因 为 高 质量 的 翻译 最 终 还 是 需要 人 的 参与 ， 最 新 的 计算 机 辅 
助 翻译 工具 利用 了 统计 翻译 中 的 方法 。 


10.9 总 结 


数据 驱动 方法 的 应 用 使 得 机 器 翻译 这 一 领域 非常 活跃。 

机 器 翻译 似乎 是 一 项 很 直观 的 任务 : 在 不 改变 意义 的 情况 下 ， 把 一 种 语言 的 文本 翻译 
成 男 一 种 语言 的 文本 。 但 如 何 准 确 地 度量 一 个 句子 的 翻译 是 否 是 正确 的 仍然 是 一 个 尚未 解 
决 的 问题 ， 如 10.2 节 中 关于 评测 的 讨论 。 | 

从 双语 平行 语料库 中 学 习 翻 译 模型 的 一 个 重要 的 步骤 是 词 对 齐 (参见 10.3 $5, XT 
短语 的 模型 (参见 10. 4 节 ) 和 基于 树 的 模型 (参见 10. 5 节 ) 的 构建 都 依赖 于 一 个 词 对 齐 
的 平行 语料库 ， 这 是 当前 最 常用 的 方法 。 

统计 机 器 翻译 已 经 取得 了 很 大 的 进步 ， 例 如 ， 使 用 当前 的 系统 把 新 闻 报 道 从 法 语 翻译 
成 英语 ， 可 以 得 到 可 读 性 和 准确 率 都 较 高 的 输出 。 但 是 仍然 存在 很 多 挑战 ， 尤 其 是 对 于 有 具 
有 不 同 词 序 和 形态 丰富 的 语言 对 (参见 10. 6 节 )。 

大 量 的 开源 工具 和 资源 方便 了 研究 者 对 该 领域 的 研究 (参见 10.7 节 )， 许 多 未 来 研究 
方向 仍 需 探 索 (参见 10. 8 节 )。 
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器 语言 信息 检索 





Philipp Sorg, Philipp Cimiano 


单 语 言 信 息 检 索 (Information Retrieval, IR〉 的 研究 始 于 20 世纪 60 年 代 以 前 ， 到 了 
现在 已 经 形成 了 成 熟 的 研究 领域 和 体系 。 其 子 领域 跨 语 言 信 息 检 索 也 在 近 些 年 来 引起 了 大 
量 的 兴趣 。 造 成 这 个 现象 的 原因 是 多 方面 的 。 首 先是 相关 学 科 和 技术 尤其 是 机 器 翻译 的 进 
步 促 使 了 跨 语 言 信息 检索 系统 的 发 展 。 其 次 ， 我们 在 过 去 的 几 年 发 现 ， 非 英语 的 互联 网 用 
户 的 数量 增长 得 越 来 越 快 S ， 他 们 使 得 越 来 越 多 的 非 英语 信息 内 容 出 现在 网 络 上 。 再 者 ， 
Web 2. 0 时 代 的 到 来 使 得 路 语言 检索 的 需求 增加 。 尽 管 专业 的 网 站 通常 都 有 针对 主要 语种 
的 翻译 ， 但 诸如 Flickr, Yahoo! 回答 、Facebook 和 Twitter 等 的 Web 2. 0 应 用 中 的 大 量 
用 户 生 成 的 内 容 却 没有 翻译 。 最 后 ， 对 于 那些 跨国 公司 或 者 国际 组 织 团体 而 言 ， 跨 语言 信 
息 检索 也 是 基本 需求 。 

本 章 我 们 将 介绍 跨 语言 信息 检索 (Corsslingual Information Retrieval. CLIR) 和 多 语 
言 信息 检索 (Multilingual Information Retrieval, MLIR) 的 相关 技术 。 其 中 CLIR 涉及 两 
种 语言 一 一 查询 串 (query) 语言 和 文档 集合 (collection) 语言 ， 依 据 语 言 同 质 的 (lan- 
guage-homogeneous) 文档 集 以 查询 的 语言 来 回答 查询 。 与 此 相对 照 ，MLIR 则 涉及 任意 
多 种 语言 ， 依 据 包含 不 同 语言 的 文档 集 ， 系 统 会 以 支持 的 任何 语言 回答 查询 。 | 

因为 CLIR 和 MLIR 所 用 到 的 主要 技术 是 传统 信息 检索 的 基本 技术 ， 所 以 我 们 也 会 介 
绍 信 息 检 索 的 一 些 基本 技术 。 本 章 涉 及 开发 CLIR fü MLIR 系统 可 供 选 择 的 一 系列 相关 技 
术 以 及 实践 中 最 佳 的 方法 。 想 要 了 解 CLIR 和 MLIR 所 用 到 的 主要 方法 和 技术 框架 的 研究 
者 ， 或 者 是 正在 实现 一 个 多 语言 信息 检索 系统 的 开发 者 可 以 在 本 章 有 所 收获 。 本 章 探 讨 了 
文档 模型 (document model), Re (retrieval function) 和 多 语言 信息 检索 系统 中 的 
翻译 手段 等 ， 具 体 包 括 特定 语言 下 的 文档 预 处 理 、 统 计 信 息 检 索 模 型 、 机 器 翻译 系统 和 
IR 系统 评测 等 。 


11.1 概述 


信息 检索 主要 处 理 信 息 项 (information item) [1] 的 表示 、 存 储 、 组 织 以 及 存 取 。 通 
过 合理 的 信息 项 表示 与 组 织 ， 信 息 检 索 系 统 可 以 使 想得到 特定 信息 的 用 户 得 到 他 们 感 兴 趣 
的 信息 。 

最 典型 的 方式 就 是 ， 用 户 把 自己 的 信息 需求 用 查询 关键 字 表 示 ， 这 些 关 键 字 通常 是 一 
些 关 键 词 的 集合 。IFR 系统 用 这 些 关 键 字 作为 输入 ， 把 系统 认为 和 用 户 信 息 需 求 最 相关 的 
信息 项 作为 结果 返回 。 同 问答 系统 (Question Answering, QA) 不 同 的 是 ，QA 返回 的 是 对 
用 户 提 交 问 题 的 直接 回答 ， 而 IR 系统 则 返回 一 个 按 与 用 户 查 询 串 的 相关 度 排 序 的 文档 列表 。 
IR 系统 的 目标 是 将 相关 的 文档 尽 可 能 排 在 靠 前 ， 而 不 相关 的 文档 则 尽 可 能 排 在 后 面 。 
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本 章 我 们 主要 介绍 信息 检索 的 多 语言 方面 。 在 CLIR fl MLIR rp, HP RASA E Er fi 
用 的 语言 和 相关 信息 的 语言 可 能 是 不 同 的 。 虽 然 相 关 性 概念 原则 上 说 是 和 语言 无 关 的 ， 但 
用 户 还 是 需要 理解 所 检索 出 的 项 。 所 以 多 语 搜索 系统 必须 保证 仅 返 用 户 所 支持 语言 的 检索 
结果 或 所 返回 的 结果 已 被 翻译 为 用 户 所 支持 的 语言 。 


11.2 LATAR 


本 节 我 们 介绍 文档 的 预 处 理工 作 。 预 处 理 的 输入 是 原始 文档 ， 输 出 则 是 词 元 集合 。 词 
元 是 术语 (类) 在 文档 中 的 具体 出 现 ， 表示 最 小 的 意义 单元 。 预 处 理 的 输出 定义 了 一 个 词 
汇 表 (vocabulary) , 可 以 用 于 对 文档 集合 进行 索引 * 如 11.8 节 所 述 。 

大 部 分 IR 模型 和 系统 都 简单 地 假设 文档 中 词 元 间 的 顺序 是 无 关 紧 要 的 。 短 语 索 引 
(phrase indices) 和 位 置 索引 (positional indices) 则 是 用 到 词 元 间 次 序 的 两 个 例子 (相关 
介绍 请 见 Manning, Raghavan 和 Schtze | 2])。 

根据 语言 、 文 字 以 及 其 他 因素 的 差异 ， 识 别 术 语 的 过 程 可 能 差别 很 大 。 对 于 西欧 语言 
来 说 ， 语 言 中 的 词语 就 可 以 用 作 IR 系统 的 术语 。 而 用 于 亚洲 语言 的 IR 系统 中 术语 则 常 定 
义 为 固定 数量 的 连续 字符 序列 。 以 中 文 为 例 ， 该 语言 的 词语 之 间 通 常 没 用 空格 进行 分 隔 ， 
因此 将 术语 定义 为 字符 序列 就 可 以 绕 过 词语 识别 的 问题 。 

接 下 来 的 几 节 将 介绍 文档 预 处 理 的 一 些 常用 技术 手段 。 我 们 将 着 重 强 调 对 于 不 同 语言 
和 文字 而 言 预 处 理 的 差异 ， 特别 包括 关于 文档 结构 (document syntax) 、 编 码 格式 Cenco- 
ding)、 词 元 化 (tokenization) 以 及 词 元 标准 化 (normalization of token) 等 的 不 同 。 算 法 
11-1 描述 了 完整 的 文档 预 处 理 流 程 ， 此 流程 显示 了 各 不 同 的 预 处 理 步 又 之 间 的 依赖 关系 ， 
这 些 步 骤 将 随后 介绍 。 

算法 11-1 对 文档 d 的 预 处 理 流 程 ， 结 果 是 词 元 集合 T 

d — INPUT 

T -Ø 

[ei; 62, ...] — character-stream(d) 

B + tokenize(lei, c2, .. .]) 

while B # © do 

t — POLL(B) 

if is-compound(t) then 

B + BU compound-split (t) 
end if 

if not is-stop-word(t) then 

t — normalize(t) 
T —TU (t) 
end if 


end while 
return T 


11.2.1 文档 句法 和 编码 


预 处 理 流程 的 第 一 步 是 从 给 定数 据 流 (data stream) 中 识别 出 文档 集合 [2]。 在 很 多 
情况 下 ， 研 究 者 都 可 以 直接 把 一 个 特定 的 文件 或 者 网 页 当 作 一 个 文档 。 但 是 ， 对 一 些 应 用 
场景 而 言 ， 文 件 可 能 包含 很 多 文档 (例如 ，XML 检索 ) 或 者 文档 分 散在 多 个 文件 中 Chl 
如 ， 网 页 集合 )。 因 此 ， 开 发 者 需要 根据 具体 搜索 任务 中 需要 检索 的 信息 项 类 型 来 对 文档 
究竟 由 什么 构成 给 出 定义 。 

接 下 来 的 步骤 就 是 把 这 些 文档 转换 成 表示 其 内 容 的 字符 流 。 这 个 步骤 的 目标 是 把 不 同 
编码 、 文 字 和 文字 方向 的 文档 转换 成 统一 的 表示 。 这 个 步骤 完成 后 两 个 十 种 相同 而 且 内 容 
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相同 的 文档 应 该 转化 成 相同 的 字符 流 。 需 要 处 理 如 下 挑战 : 

文档 句法 (document syntax) ”文档 的 内 容 通 常会 按 给 定 文 件 类 型 (file type) 的 名 
法 进行 编码 。 在 对 文件 建立 索引 之 前 ， 要 先 根据 文件 类 型 规范 抽取 出 文件 中 的 文本 内 容 ， 
以 避免 那些 包含 格式 说 明 或 元 数据 的 词汇 元 素 被 索引 。 

需要 从 中 抽取 内 容 的 文件 格式 实例 有 PDF 文件 或 Web 页 面 。 现 有 的 很 多 函数 库 都 支 
持 对 PDF zt HTML 文件 类 型 的 解析 以 及 其 中 文本 内 容 的 抽取 。 

在 很 多 情况 下 ， 一 篇 文档 中 只 有 一 部 分 的 文本 内 容 表 达 了 文档 的 语义 信息 (semantic 
content)， 其 他 的 文字 部 分 则 对 所 有 文档 都 是 一 样 的 ， 例 如 页 眉 Cheader) 和 页 脚 (foot- 
er) 等 部 分 。 在 这 种 情况 下 ， 对 所 有 内 容 建 立 索 引 也 会 引入 噪声 。 我 们 需要 根据 特定 的 文 
档 格 式 ， 依 据 其 结构 设计 具体 的 抽取 算法 以 识别 出 其 中 的 重要 文本 内 容 。 以 网 页 为 例 ， 如 
何 抽取 信息 依赖 于 页 面 的 结构 。 页 眉 中 诸如 标题 、 关 键 字 等 信息 描述 了 网 页 的 内 容 ， 应 该 
被 抽取 ， 而 所 有 页 面 都 一 样 的 顶部 条 (top bar) 和 菜单 栏 (menu) 则 应 该 被 忽略 。 

“编码 (encoding) 和 文字 (script) ” 计算 机 系统 中 字符 的 底层 表示 方法 叫做 编码 。 历 
EE, ASCI 的 字符 编码 方案 被 广泛 用 于 编码 英文 文档 。 这 是 一 种 很 早 的 英文 字符 和 一 些 
符号 的 编码 方式 ， 只 对 拉丁 字母 表 中 的 字符 进行 了 编码 ， 不 能 编码 超出 此 范围 的 字符 集 
合 。 作 为 一 个 能 支持 多 数 通 用 语言 的 编码 规范 ，Unicode [3] 已 成 为 国际 化 应 用 的 事实 标 
准 。 所 有 语言 的 每 个 字符 都 对 应 唯一 的 数值 ， 这 保证 了 很 高 的 路 平 台 可 移植 性 也 避免 了 因 
转换 带 来 的 错误 。Unicode 也 支持 从 右 向 左 书写 的 文字 并 可 用 于 编码 诸如 阿拉 伯 语 或 者 硕 
伯 来 语 等 语言 。 由 于 多 数 操作 系统 和 现代 编程 语言 都 支持 Unicode， 所 以 强烈 推荐 使 用 
Unicode 作为 默认 的 字符 编码 方式 。 

IR 系统 的 查询 和 文档 集 通常 会 用 同一 种 文字 书写 系统 进行 表示 。 在 某 些 程度 上 ， 检 
索 可 归结 为 字符 匹配 ， 如 果 查 询 和 文档 文字 不 兼容 则 匹配 不 成 功 。 昔 语 拥有 两 种 通用 文字 
Ae. HEX (Hangu) 和 韩文 汉字 (Hanja)。 从 一 种 文字 系统 转换 到 另外 一 种 文字 系 
统 叫 做 音译 (transliteration) 。 请 不 要 将 此 概念 与 翻译 混淆 ， 因 为 它 所 涉及 的 语言 并 未 改 
变 。 音 译 一 般 是 通过 另外 一 种 语言 的 拼 读 方式 模仿 源 语言 的 发 音 方式 ， 这 种 模仿 是 典型 的 
可 道 语音 转换 的 过 程 。 

为 了 对 包含 多 种 文字 文档 的 数据 集 进 行 预 处 理 ， 一 般 会 采用 罗马 化 (romanization) 
技术 以 获得 一 个 统一 的 表示 。 罗 马 化 就 是 把 任何 的 文字 音译 成 拉丁 (罗马) 字母。 对 检索 
系统 而 言 ， 这 种 音译 方式 在 搜索 通 名 (common name) 时 特别 有 用 。 通 过 罗马 化 音译 ， 这 
些 不 同 语言 和 文字 文档 中 所 使 用 的 通 名 大 多 被 统一 地 映射 到 了 相同 的 字符 串 序列 。 作 为 联 
合 国 地 名 专家 组 (United Nations Group of Experts on Geographical Names, UNGEGN) 
的 一 部 分 ， 罗 马 化 工 作 组 (Working Group on Romanization System) [4] 为 多 种 语言 提 
供 了 罗马 化 转换 资源 。 这 个 工作 组 的 目的 是 引入 统一 的 地 理 名 称 表示 。 然 而 ， 他 们 提供 的 
资源 可 以 用 于 任意 文本 的 罗马 化 。 

文字 的 方向 (direction of script) ”文字 记录 了 人 的 口语 ， 所 以 文档 中 的 词 和 字母 的 
顺序 同人 们 语音 流 的 顺序 是 一 致 的 [2]。 文 档 中 的 字 节 序列 也 一 般 会 反映 些 自然 顺序 。 文 
字 的 实际 方向 会 由 应 用 程序 的 可 视 化 层 处 理 ， 该 层 通常 是 用 户 界 面 的 一 部 分 。 预 处 理 的 主 
要 问题 之 一 是 文档 集中 包含 了 多 种 具有 不 同文 字 方 向 的 语言 文本 。 一 个 例子 是 阿拉 伯 语 文 
本 中 包含 英文 通 名 。 由 于 本 章 我 们 讨论 的 主要 问题 是 MLIR 的 核心 功能 和 模型 ， 所 以 我 们 
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不 进一步 研究 上 述 难点 问题 。 而 只 关心 文档 的 数据 层 ， 这 些 层 不 涉及 文字 的 方向 。 但 是 如 
果 设 计 用 户 界 面 ， 这 就 是 一 个 更 为 重要 的 问题 了 。 


11.2.2 "EE 


词 元 化 就 是 把 字符 流 分 割 成 词 元 串 的 过 程 。 词 元 是 术语 的 实例 ， 也 对 应 了 最 小 的 索引 
单元 。 所 有 术语 的 集合 称 为 词汇 表 。 接 下 来 将 介绍 3 种 需要 不 同 词 元 化 方法 的 通用 词汇 表 
类 型 。 对 于 信息 检索 系统 来 说 词汇 表 构造 是 很 重要 的 。 相 关 设 计 指 南 可 以 参考 11. 2.4 节 。 

我 们 以 如 下 句子 为 例 来 说 明 不 同 的 词 元 化 方法 : 

It is a sunny day in Karlsruhe. 

分 词 最 常用 的 词 元 化 方式 就 是 利用 词 边界 来 分 割 文本 。 这 样 ， 词 元 就 对 应 语言 的 
词 ， 而 词汇 表 则 等 价 于 词典 〈 包 括 词素 ) 。 

对 于 采用 空白 字符 来 划分 单词 的 语言 ， 这 种 方式 在 多 数 IR 系统 中 已 被 成 功 使 用 。 空 
日 字符 和 标点 符号 因此 成 为 将 文本 划分 为 词 元 的 线索 。 这 类 语言 的 例子 是 西欧 语言 。 这 种 
方式 的 问题 是 ， 简 单 地 在 空白 和 标点 符号 处 分 割 文 本 将 可 能 把 表示 为 单个 词 元 的 文本 分 割 
开 。 这 类 错误 源 的 例子 是 连 字 符 (co-education)、 专 名 中 的 空格 (New Youk), 日 期 (April 
28, 2010) 和 电话 号 码 等 [2]。 多 数 情 况 下 可 以 采用 启发 式 规则 判断 是 否 应 该 拆 分 。 也 可 以 
训练 分 类 需 来 处 理 这 类 不 确定 的 情况 。 对 于 上 面 的 例子 来 说 按 空白 字符 分 词 的 结果 如 下 : 

[It], [is], Lal, [sunny], [day], Lin], [Karisruhe] 

对 于 中 文 等 没有 空白 字符 的 文字 来 说 ， 在 词语 边界 词 元 化 是 非常 难 的 问题 。 处 理 方法 
可 分 成 两 类 : 词汇 的 和 语言 学 的 。 词 汇 方法 利用 词典 在 词 元 流 中 匹配 术语 ， 以 获得 一 个 完 
全 覆盖。 通常 这 种 匹配 是 不 确定 的 。 为 了 得 到 最 准确 的 结果 ， 我 们 常常 采用 一 些 启发 式 的 
规则 ， 例 如 最 大 匹配 原则 等 。 此 方法 的 一 个 问题 是 不 在 词典 中 因而 不 会 被 匹配 但 又 应 该 被 
检测 出 的 未 知 术语 。 语 言 学 方式 则 利用 了 包括 已 分 词 的 文本 在 内 的 背景 知识 。 使 用 基于 词 
元 频率 的 统计 指标 的 目标 是 找 出 当前 文本 最 可 能 的 分 割 结 果 。 隐 马尔 可 夫 模 型 (Hidden 
Markov Model, HMM) 可 以 有 效 地 实现 此 计算 LS]. RW AE BE HLH (Conditional 
Random Field) 的 机 器 学 习 方 法 也 已 被 成 功用 于 此 问题 [6]。 由 于 没有 方法 能 获得 完美 的 
分 词 结果 ， 错 误 的 词 元 会 被 用 于 索引 和 检索 ， 从 而 影响 系统 的 性 能 。 

短语 索引 (phrase index) ， 短语 索引 是 以 分 词 为 基础 的 。 此 时 词 元 的 含义 不 再 是 单 
个 的 词汇 而 是 一 些 词汇 的 元 组 。 短 语 索 引 就 是 通常 所 说 的 n 元 模型 (n-gram model), n XE 
义 了 词 元 中 的 单词 数量 。 通 过 迭代 地 在 已 分 好 词 的 字符 流 中 移动 长 度 为 n 的 单词 窗口 ， 字 
符 流 将 被 映射 为 词 元 序列 。 这 些 词 元 保留 了 单词 的 上 下 文 信息 ， 但 是 通过 这 种 方法 构造 出 
的 词汇 表 会 非常 大 。 搜 索 过 程 中 利用 短语 形式 的 词 元 的 男 一 个 问题 是 术语 的 数据 稀疏 性 ， 
即 查询 中 的 许多 术语 根本 不 在 文档 集中 出 现 。 为 了 避免 这 个 问题 ， 可 以 在 基于 单个 词语 作为 
分 词 单元 的 检索 方法 之 上 使 用 短语 索引 。 对 于 给 出 的 例子 来 说 ，3 元 模型 的 分 词 结果 如 下 : 

[It is a], [is a sunny], [a sunny day], [sunny day in]，… 

基于 字符 的 n 元 模型 (character n-gram model) ”基于 字符 的 元 模型 把 术语 项 定义 
成 连续 的 n 个 字符 。 构 造 的 方法 是 在 字符 流 上 移动 个 字符 大 小 的 窗口 。 这 种 切 分 方式 得 
到 的 术语 不 是 词语 。 词汇 表 则 定义 为 包含 个 字符 的 字符 序列 集 ， 这 里 的 字符 也 包括 空 日 
字符 和 标点 符号 。 术 语 长 度 取 4 或 5 是 较为 合理 的 。 对 于 上 述 例子 来 说 ， 一 个 4 元 的 字符 
模型 的 词 元 化 结果 如 下 所 示 : 

[3€ ], [3€ 1], CEL UM eke) ts ot, 4] ion 
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这 种 方法 可 应 用 于 任意 字符 流 ， 并 不 依赖 诸如 空白 字符 等 词语 边界 线索 。 这 种 方式 可 
以 用 于 对 任何 文字 的 文本 进行 词 元 化 。 因 为 不 需要 进行 词语 的 切 分 ， 所 以 也 不 会 引入 分 词 
错误 。 这 种 方法 已 被 证 明 在 一 些 场景 中 优 于 基于 词语 划分 的 模型 [7]。 它 也 被 应 用 到 了 拼 
写 检查 问题 12j。 在 多 语言 信息 检索 中 ， 仅 当 无 须 把 术语 映射 到 不 同 语言 时 才能 使 用 基于 
字符 nt 元 组 的 词 元 化 。 因 为 此 时 的 术语 并 不 与 单词 对 应 ， 因 而 无 法 进行 跨 语 言 映射 或 翻 
译 。 字 符 nn 元 组 的 男 一 个 问题 是 ， 检 索 结 果 将 更 难 可 视 化 。 因 为 搜索 过 程 中 匹配 的 是 字符 


天 元 组 ， 所 以 我 们 很 难 在 搜索 结果 中 将 匹配 单词 高 亮 显示 。 


11.2.3 规范 化 


规范 化 的 目标 是 为 了 把 描述 相同 概念 的 不 同 词 元 映射 为 同一 个 术语 。 一 个 英文 规范 化 
的 例子 是 将 复数 形式 映射 为 其 单数 形式 ， 如 把 cars 转换 成 car。 规 范 化 可 以 看 成 是 建立 术 
语 的 等 价 类 。 在 搜索 过 程 中 ， 规范 化 可 以 增加 检 出 相关 文档 的 数量 从 而 提高 系统 的 召回 
率 。 在 建立 索引 前 须 对 文档 集 进行 规范 化 ， 在 查询 前 则 须 对 查询 进行 规范 化 ， 而 且 这 两 个 
规范 化 模型 必须 是 相同 的 ， 这 样 可 以 保证 所 有 词 元 被 映射 到 其 等 价 术语 ， 这 在 把 检索 和 文 
档 匹 配 时 是 很 重要 的 。 

不 同 的 语言 有 不 同 的 规范 化 方式 。 对 于 那些 词语 具有 很 多 形态 的 语言 来 说 ， 一 个 普遍 
的 做 法 就 是 把 (复合) 术语 映射 为 对 应 的 原形 。 例 子 是 罗马 语 和 德语 。 针 对 此 问题 有 两 个 
主要 方法 ， 一 是 原形 化 工具 (lemmatizer)， 该 工具 利用 词汇 信息 将 术语 映射 为 其 原形 。 这 
种 方式 需要 丰富 的 语言 学 资源 。 第 二 种 方法 是 词 干 化 工具 (stemmer)， 该 工具 利用 一 些 简 
单 的 规则 将 术语 映射 为 其 词 干 。 对 于 复数 的 转换 ， 可 以 通过 删除 词尾 的 “s” 来 进行 词 元 
化 。 这 种 方式 不 需要 丰富 的 语言 资源 。 这 种 方式 的 缺点 是 术语 不 是 被 映射 为 原形 而 被 映射 
为 词 干 ， 这 里 词 干 并 不 一 定 对 应 单词 。 在 多 数 情况 下 ， 许 多 不 同 概念 的 术语 会 被 映射 成 同 
样 的 词 干 。 例 如 ， 术 语 organize, organizing 和 organization 都 会 被 转换 成 organ， 这样 在 
索引 中 就 无 法 区 分 这 些 术语 了 。 反 过 来 ， 原 形 化 工具 则 可 以 正确 地 把 术语 organize 和 or- 
ganizing 转换 成 原形 organize 而 术语 organization 则 保持 不 变 。 

对 于 使 用 变 音符 的 语言 来 说 ， 规 范 化 更 有 用 。 如 果 变 音符 的 使 用 不 一 致 ， 那 么 在 规范 
化 步骤 中 将 它们 删除 是 有 益 的 。 例 如 ， 如 果 用 户 在 查询 中 没有 给 出 变 音 符 ， 那 么 规范 化 时 
在 索引 前 就 需要 删除 变 音符 。 删 除 变 音符 可 以 利用 简单 的 基于 规则 的 方法 。 

对 于 一 些 届 折 语 (例如 德语 、 和 荷兰 语 、 意 大 利 语 ) 来 说 ， 复 合 词 拆 分 (compund 
splitting) 是 另 一 种 规范 化 方式 。 这 些 语言 中 复合 术语 通常 被 拆 分 成 组 合 的 原形 以 增加 系 
统 的 召回 率 。 这 种 复合 词 拆 分 的 方式 十 分 类 似 于 前 面 处 理 亚洲 语言 的 分 词 过 程 ， 可 以 利用 
词典 的 方式 匹配 出 复合 词 中 的 术语 ， 也 可 以 利用 语言 学 方式 来 使 用 背景 知识 。 许 多 现 有 的 
方法 ， 通 过 比较 复合 词 的 频率 和 内 部 成 分 词 的 频率 来 决定 是 否 要 对 复合 词 进行 拆 分 。 在 应 
用 复合 词 拆 分 方式 的 时 候 ， 通 常 复合 词 和 拆 分 的 成 分 都 会 被 加 入 词 元 流 ， 这 样 在 检索 的 过 
程 中 也 允许 对 复合 词 进 行 匹 配 。 

删除 停 用 词 (stop-word) 也 是 规范 化 步骤 ， 该 步骤 会 从 词 元 流 中 删除 常用 术语 。 几 
乎 所 有 文档 中 都 包含 的 术语 对 于 判别 文档 的 相关 性 起 不 了 作用 。 停 用 词 一 般 都 是 冠 词 、 介 
词 或 者 连词 。 很 多 语言 已 经 有 可 用 于 匹配 和 过 滤 词 元 的 停 用 词 表 。 

就 上 述 例子 来 说 ， 经 过 词 干 化 并 删除 停 用 词 后 的 结果 是 : 


[sunny], [day], [ kar1sruh] 
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11.2.4 预 处 理 最 佳 实 践 


在 上 节 介 绍 完 不 同 的 预 处 理 方法 之 后 ， 我 们 提供 了 不 同类 型 语言 的 预 处 理 方法 指南 。 

使 用 拉丁 语 和 斯 拉夫 字母 表 语 言 的 处 理 这些 语 言 都 是 利用 空白 字符 分 隅 词语 ， 所 以 
分 词 是 较 好 的 词 元 化 过 程 。 根 据 搜索 任务 的 需要 ， 我 们 可 以 对 通 名 、 日 期 和 电话 号 码 等 进 
行 特 殊 处 理 以 增强 这 一 过 程 。 词 干 化 和 原形 化 虽然 通常 可 以 增强 这 些 语言 检索 的 效果 ,但 
是 增强 的 效果 并 不 总 是 很 明显 [1j。 词 干 化 的 实现 代价 不 高 ， 因 而 也 值得 做 一 做 。 如 果 对 
检索 结果 的 精确 率 要求 较 高 ， 那 么 规范 化 反而 可 能 会 降低 搜索 的 质量 。 对 于 屈折 语言 来 
说 ， 复合词 分 割 将 性 能 提高 了 25%[8j]。 

阿拉 伯 语 、 梵 语 、 希 伯 来 语 的 处 理 ”用 空白 字符 作为 词 边界 的 分 词 方法 可 以 用 于 这 些 
语言 的 处 理 (而 且 也 建议 使 用 )， 因 为 这 些 语言 的 词语 形态 变化 不 是 很 多 ,词语 形态 分 析 
( 词 干 化 和 原形 化 ) 不 是 必需 的 ， 但 是 变 音符 的 处 理 还 是 需要 注意 。 在 建立 索引 和 查询 之 
前 需要 把 带 变 音符 的 词语 转换 成 规范 的 表示 。 

使 用 象形 文字 或 音节 文字 的 语言 的 处 理 ”诸如 韩语 和 日 语 之 类 的 语言 使 用 了 多 个 文字 
书写 系统 ， 所 以 对 应 的 查询 串 和 文档 都 会 用 多 种 文字 书写 方式 书写 。 在 这 种 情况 下 ， 在 检索 
和 文档 处 理 前 需要 对 查询 或 文档 进行 音译 以 确保 搜索 过 程 的 兼容 性 。 这 些 文字 系统 中 ， 词 语 
通常 不 是 以 空 日 字符 来 分 割 的 。 如 果 茶 语言 (如 中 文 ) 已 经 有 丰富 的 语 料 ， 那 么 基于 启发 式 
方法 或 者 机 器 学 习 方 法 的 分 词 模型 已 证 明 会 取得 很 好 的 效果 上 6j。 如 果 没 有 这 些 语 料 ， 也 可 
以 采用 基于 字符 n 元 组 的 词 元 化 模型 。 这 种 方法 是 和 语言 无 关 的 且 避 免 了 复 淋 的 词语 边界 检 
测 方 法 。 该 方法 已 被 证 明 很 鲁 棒 并 在 处 理 欧洲 语言 时 可 取得 与 基于 分 词 的 系统 相当 的 结果 [7j。 


11.3 单 语 信息 检索 


多 数 MLIR 的 实现 方法 要 么 直接 基于 单 语 IR 技术 ， 要 么 使 用 标准 IR 模型 。MLIR 可 
以 看 成 是 多 个 不 同 语言 单 语 信息 检索 系统 的 聚合 。 除 了 聚合 的 技术 之 外 ， 基 于 特定 语言 检 
索 的 预 处 理 ， 特 别 是 翻译 (11.5 节 中 说 明 ) 也 是 必要 的 。 通 常情 况 下 ，MLIR 采用 和 单 语 
信息 检索 相同 的 索引 结构 以 及 类 似 的 文档 与 检索 模型 。 本 章 对 单 语 信息 检索 进行 了 综述 ， 
包括 文档 表示 、 索 引 结构 、 检 索 模 型 以 及 文档 先 验 模 型 等 。 我 们 关注 MLIR fil CLIR 都 会 
用 到 的 信息 检索 的 重要 方面 。 如 果 想 更 多 地 了 解 单 语 信息 检索 模型 ， 可 以 参考 Manning 等 
A L2] 以 及 Baeza-Yates 和 Ribeiro-Neto [1] 的 论文 。 


11.3.1 文档 表示 


在 11. 2 节 中 ， 我 们 介绍 了 文档 的 预 处 理工 作 ， 其 结果 是 文档 用 词 元 流 表 示 。 词 元 是 
术语 的 实例 ， 由 词 、 词 干 或 词 的 原形 或 者 字符 n 元 组 来 定义 。 本 章 介 绍 的 信息 检索 模型 独 
立 于 所 用 到 的 词汇 表 ， 并 可 以 适用 于 任意 术语 模型 。 为 了 便于 解释 ,我 们 简单 假设 本 章 所 
用 到 的 术语 是 口语 中 的 词汇 ， 这 种 表述 符合 人 们 直观 认为 的 词汇 表 。 

现 阶段 大 部 分 的 信息 检索 方法 都 是 用 到 了 基于 术语 的 独立 性 假设 Cindependence as- 
sumption) 的 文档 模型 。 这 就 意味 着 文档 中 术语 的 出 现 独立 于 相同 文档 中 其 他 术语 的 出 
现 。 尽 管 这 种 独立 性 假设 过 于 简单 但 用 在 信息 检索 模型 中 所 取得 的 效果 还 是 可 以 接受 的 。 

在 此 独立 性 假设 下 ， 文档 可 以 用 向 量 空 间 模 型 (vector space model) 表示 ， 问 量 空间 
是 由 词典 中 的 词 构 成 ， 向 量 的 每 一 维 对 应 着 词汇 表 中 的 一 个 术语 。 文 档 经 由 一 个 映射 函数 


了 而 表示 成 向 量 。 这 个 函数 可 以 把 文档 d 的 词 元 流 映 射 成 术语 向 量 4。 有 许多 不 同 的 映射 
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PRA f/， 最 著名 的 是 : 
© 布尔 文档 模型 (boolean document model): 如 果 某 个 术语 在 文档 中 出 现 至 少 一 次 ， 
那么 术语 对 应 的 向 量 维 被 设置 成 1]， 否则 设置 为 0。 
。 TF 文档 模型 (TF document model): 癌 量 每 个 维度 的 值 依赖 于 该 维度 所 对 应 术语 
在 文档 词 元 流 中 出 现 的 次 数 术语 的 频率 。 在 术语 向 量 中 可 以 直接 使 用 术语 的 
频率 。 一 种 可 能 的 变 体 是 文档 长 度 进行 归 一 化 后 的 术语 频率 。 
。 TF. IDF 文档 模型 (TF. IDF document model); 这 类 模型 在 术语 频率 值 基础 上 额 
外 再 乘 以 术语 的 道 文档 频率 (inverse document frequency) 。 所 谓 术 语 的 文档 频率 
指 的 是 文档 集合 中 包含 此 术语 的 文档 个 数 。 因 而 ， 逆 文档 频率 将 对 不 常见 术语 给 
予 更 高 的 权重 ， 而 对 那些 无 法 很 好 区 分 集合 中 文档 的 高 频 术语 以 更 低 的 权重 。 大 
多 数 情 况 下 TF. IDF 模型 中 会 使 用 取 对 数 后 的 逆 文 档 频 率 值 。 
给 定 一 个 文档 集合 ， 每 个 文档 的 术语 问 量 可 以 组 合 起 来 形成 一 个 术语 -文档 矩阵 
(term-document matrix) 。 这 个 矩阵 的 每 一 行 表示 一 个 具体 的 词 项 ， 每 一 列表 示 一 个 文档 。 
我 们 将 使 用 如 下 文档 来 解释 不 同 的 文档 表示 : 


Doci: It is a sunny day in Karlsruhe. 
Doc2: It rains and rains and rains the whole day. 


上 述 讨论 的 不 同文 档 模 型 所 表示 出 的 术语 -文档 和 矩阵 如 下 所 示 : 





Boolean TE TF. IDF 

E 文档 1 文档 2 文档 1 文档 2 文档 1 文档 2 
sunny 1 0 1 0 1 log 2/170. 7 0.0 
day 1 1 1 1 1 log 2/2=0. 0 1 log 2/2=0. 0 
Karlsruhe 1 0 ] 0 1 log 2/1=0. 7 0. 0 
rains 0 1 0 3 0.0 3 log 2/1—2. 1 


11.3.2 索引 结构 


信息 检索 系统 的 一 个 重要 方面 是 时 间 性 能 。 用 户 和 希望 检索 的 结果 可 以 实时 获取 ， 如 采 
延迟 了 1 秒 就 会 认为 检索 系统 响应 过 慢 。 显 然 ， 对 给 定 查询 简单 地 遍历 全 部 文档 的 方式 无 
法 用 于 大 规模 的 文档 集 。 目 前 信息 检索 系统 迅速 的 响应 速度 得 益 于 倒 排 索引 (inverted in- 
dex) 。 其 基本 思路 是 ， 将 各 术语 所 出 现 的 文档 信息 存储 下 来 。 这 一 思想 为 每 个 术语 存储 了 
它 出 现 的 文档 的 信息 。 这 种 术语 到 文档 的 对 应 关系 即 为 倒 排 表 (posting list)， 具 体例 子 
可 见 Manning 等 人 [2] 的 文章 。 在 检索 的 过 程 中 只 需要 对 查询 术语 涉及 的 倒 排 表 进 行 处 
理 即 可 。 由 于 用 户 的 查询 字符 串通 常 只 包含 少量 术语 ， 所 以 检索 分 值 只 需要 很 小 的 平均 时 
间 复 杂 度 即 可 计算 。 

对 于 上 面 给 出 的 文档 集 例子 ， 我们 可 以 得 到 对 应 的 倒 排 表 : 


sunny -> doci(ix) 
day -> doci(ix), doc2(2x) 
Karlsruhe -» doci(ix) 
rains -» doc2(3x) 


使 用 倒 排 索引 的 一 个 瓶颈 是 内 存 耗 费 问题 。 将 倒 排 表 加 载 到 内 存 中 是 一 个 很 惕 的 过 
程 ， 应 该 避免 这 种 情况 经 常 发 生 。 一 些 启 发 式 的 方法 可 以 帮助 决定 哪个 部 分 的 倒 排 表 应 该 
驻 留 内 存 并 且 哪 个 部 分 应 该 被 替换 。 减 少 倒 排 表 所 占 内 存 的 常用 方法 是 压缩 或 者 利用 后 缀 
树 的 技术 手段 ， 这 些 方法 在 Baeza-Yates 和 Ribeiro-Neto [1] 的 论文 中 有 所 介绍 。 对 于 超 
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个 服务 器 只 存储 倒 排 表 一 部 分 子 集 。 

要 降低 检索 的 时 间 复 杂 度 ， 还 可 以 利用 非 精 确 检 索 模 型 Cinexact retrieval model) 或 
Top-k 模型 。 这 些 模 型 不 会 对 所 有 的 文档 进行 比 对 ， 只 处 理 那 些 相 关 程 度 高 的 文档 。 通 过 这 
些 方 法 ,信息 检索 系统 的 时 间 复 杂 度 可 以 在 不 明显 降低 检索 性 能 的 前 提 下 进一步 降低 [9]. 


11.3.3 检索 模型 


检索 模型 用 于 评价 用 户 查询 和 文档 之 间 的 相关 度 。 相 关 函 数 可 以 用 不 同 的 理论 计算 模 
型 推导 出 来 。 接 下 来 将 介绍 3 类 主要 的 检索 模型 : 布尔 模型 (boolean model)、 向 量 空间 
模型 (vector space model) 和 概率 模型 (probabilistic model), 。 用 户 查 询 常 根据 所 用 模型 
的 不 同 采 用 不 同 的 方式 表示 。 布 尔 模型 的 用 户 查询 串 被 表示 成 二 值 的 术语 向 量 (binary 
term vector) 。 基 于 我 们 先前 的 独立 性 假设 ， 这 种 方式 的 表示 会 丢失 查询 串 中 术语 间 的 次 
序 信 息 ， 而 只 反映 了 术语 是 否 出 现 或 者 缺失 。 对 向 量 空间 模型 和 概率 模型 来 说 ， 查 询 串 被 
表示 成 实 值 的 问 量 空间 ， 其 中 每 个 查询 术语 的 分 值 将 被 累计 2]. 

布尔 模型 ”布尔 模型 是 信息 检索 中 出 现 最 早 的 检索 模型 。 在 布尔 模型 中 ， 查 询 串 和 文 
档 的 相关 程度 计算 结果 也 是 一 个 布尔 值 ， 是 通过 匹配 两 个 分 别 代 表 查 询 串 和 文档 的 术语 二 
值 问 量 的 方式 来 进行 。 因 为 向 量 空间 模型 和 概率 模型 的 效果 要 好 于 传统 的 布尔 模型 ， 所 以 
我 们 在 本 章 着 重 介 绍 这 两 个 模型 。 如 果 读 者 还 有 兴趣 深入 了 解 布尔 模型 ， 可 以 参考 Man- 
ning 等 人 [2] 的 论文 。 

向 量 空间 模型 ”向 量 空间 模型 基于 文档 的 向 量 空 间 表 示 。 通 过 前 面 的 描述 我 们 可 以 知 
道 ， 癌 量 空间 通过 词汇 表 信 息 来 构造 ， 术 语 -文档 矩阵 中 的 单元 Centry) 通常 由 相应 的 术语 
频率 信息 定义 。 为 了 计算 文档 集 和 给 定 查询 之 间 的 相关 度 可 以 采用 多 种 不 同 的 计算 策略 : 

D 累积 模型 (accumulative model): 此 检索 函数 为 每 一 个 查询 术语 计算 出 分 值 。 这 


” 些 查询 术语 分 值 则 按 文档 被 分 别 累加 以 获得 每 个 文档 的 累积 分 值 。 单 个 术语 的 分 值 计算 


函数 可 基于 如 下 指标 : 

© that): 术语 在 文档 中 的 频率 。 

。 |d|: 文档 长 度 。 

。 df(t): 查询 术语 的 文档 频率 。 

。 tfp(t): 文档 集合 中 包含 的 查询 术语 的 词 元 数目 。 

。 |D|: 文档 集合 中 文档 的 数量 。 

例如 ， 基 于 术语 频率 和 逆 文 档 频 率 的 简单 检索 模型 的 累积 分 数 计算 方式 如 下 : 
score(q,d) = Bifa olog PE 


t€q 

2) 几何 模型 : 查询 串 v 的 向 量 空间 表示 可 以 表示 为 术语 向 量 9 。 在 这 种 情况 下 ， 检 索 
模型 可 以 采用 术语 向 量 空间 模型 中 的 几何 相似 度 计 算 方 式 [2]。 比 如 ， 余弦 相似 度 (co- 
sine similarity) 就 是 在 检索 中 成 功 应 用 的 计算 方式 : 

(q.d) 
lal all 

概率 模型 ”概率 模型 的 基本 思想 是 估计 文档 与 给 定 查 询 串 相关 的 可 能 性 。 因 此 相关 度 
被 建 模 成 取 值 为 (1, 0} 的 随机 变量 R。 我 们 说 给 定 文 档 d 和 查询 串 g 相关 ， 当 且 仅 当 P 
(R—1l|d,q)—P(G-—O0|d.q) [2,203 页 ]。 已 经 证 明 ， 当 给 定 一 个 二 值 损失 防 数 和 基于 全 


score(q,d) = cos(q,d) = 
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部 可 用 信息 的 所 有 概率 的 最 准确 估计 ， 概 率 模 型 可 取得 最 好 的 结果 [10]. (A. 在 实际 
项 目 中 不 可 能 得 到 准确 的 概率 估计 。 在 向 量 空间 模型 中 也 可 以 利用 概率 空间 模型 调整 启发 
函数 的 选择 ; 利用 道 文档 频率 就 是 一 个 这 样 的 例子 (详细 信息 请 参见 Manning 等 人 [2]). 

BM25 模型 [11] 是 概率 模型 的 一 个 例子 ， 在 实际 应 用 已 被 证 明 非 常 成 功 。 它 的 评分 函数 
定义 如 下 : 


score (qd) = Sidf () 一 一 一 一 世人 全 太一 一 一 
‘es b —b) CAT pees 
ea) 
f(t) = log +P aes 
此 模型 的 参数 取 值 一 般 是 有 i 二 2，65 二 0.75， 但 是 也 需要 根据 具体 的 搜索 任务 和 数据 集 


进行 调整 。 

语言 模型 (language model) ， 最 近 几 年 里 ， 语 言 模型 也 被 证 实 是 一 个 强 有 力 的 替代 
检索 模型 。 语 言 模型 是 概率 模型 的 子 类 。 文 档 、 查 询 或 整个 集合 都 由 生成 模型 表示 。 这 些 
模型 由 术语 的 概率 分 布 表 示 ， 如 文档 、 查 询 或 文档 集 生成 某 个 特定 术语 的 概率 [12]. 

最 大 似 然 估 计 经 常 被 用 来 定义 文档 模型 。 文 档 d 生成 一 个 特定 术语 上 的 概率 定义 为 : 
tf aXt) 

id | 

在 信息 检索 中 一 般 通 过 语言 模型 估计 p(d | 9) 的 概率 ， 也 即 相 关 度 分 仁 。 利 用 贝 叶 

斯 定理 可 以 转换 成 : 


Pit | d) = 





P(q | d) p(d) 
Pg) 


因为 P(g) 对 于 特定 的 查询 串 来 说 是 常量 ，P(Z) 可 以 假定 是 均匀 分 布 ， 所 以 文档 的 排序 
主要 基于 P(g | g) 的 值 ， 当 将 查询 串 建 模 为 独立 的 术语 集合 时 ，P(a | d) 的 值 可 以 用 文 
档 语 言 模型 进行 估计 : 


P(d|q) = 


Pial ao. LLP] | a) 


t€q 
因为 如 果 所 有 文档 都 不 包含 查询 串 中 的 词 项 ， 通 过 上 式 计 算出 来 的 值 可 能 是 0， 所 以 需要 
采用 平滑 的 方法 。 利 用 术语 先 验 概率 PO 可 以 构造 一 个 用 于 检索 的 混合 模型 : 
Pial D= oP a) teP® 


t€ q 
通常 情况 下 可 以 利用 文档 中 所 有 术语 的 集合 估计 术语 的 先 验 概率 : 
Safa) 


PQ) = E> 


ya 


de D 


11.3.4 查询 扩展 

查询 扩展 (query expansion) 是 一 种 用 来 提高 检索 效果 的 常用 技术 手段 。 在 CLIR 和 
MLIR 中 更 引起 了 特殊 关注 。 通 常 可 以 用 添加 了 一 些 额 外 术语 集合 ， 进 一 步 反 映 用 户 可 能 
的 信息 需求 。 查 询 扩展 的 目标 是 通过 额外 扩展 的 术语 信息 描述 相关 内 容 ， 使 得 更 多 相关 文 
档 被 检索 出 来 。 

上 面 已 经 介绍 的 所 有 信息 检索 模型 都 可 以 用 到 查询 扩展 。 通 常 被 扩展 的 术语 被 赋予 的 
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权重 要 比 查询 中 原 有 术语 的 权重 低 。 上 有 具体 权重 值 依 赖 于 各 扩展 术语 的 置信 度 和 查询 扩展 的 
整体 权重 。 在 概率 检索 模型 中 ， 查 询 扩 展 也 可 以 用 来 改善 概率 的 估计 ， 例 如 可 用 于 改善 查 
询 语 言 模型 的 估计 。 我 们 接 下 来 要 区 分 扩展 术语 的 两 种 不 同 来 源 : 

背景 知识 (background knowledge) 可 利用 一 些 外 部 的 知识 资源 来 寻找 给 定 查询 的 
扩展 术语 。 例 如 ， 可 以 利用 辞典 以 及 查询 术语 的 同义词 来 扩展 查询 。 对 于 CLIR 或 者 
MLIR 来 说 ， 对 查询 串 的 翻译 也 是 一 种 特殊 形式 的 查询 扩展 。 在 这 种 情况 下 ， 查 询 将 依据 
其 不 同 语言 的 翻译 中 的 术语 进行 扩展 。 

相关 反馈 (relevance feedback) 用 于 查询 扩展 的 相关 反馈 是 一 个 两 步 的 检索 过 程 。 首 
先 ， 根 据 原 始 查询 得 到 一 个 文档 集合 。 然 后 ， 对 这 些 文档 集合 进行 相关 性 评估 并 在 查询 结果 
中 识别 出 相关 的 文档 集合 。 通 过 在 扩展 文档 集合 上 利用 术语 频率 和 文档 频率 等 扩充 模型 手 
段 ， 可 以 得 到 一 些 可 能 有 用 的 术语 集合 ， 然 后 把 这 些 术 语 集合 用 于 查询 串 扩展 的 第 二 步 。 

在 相关 性 文档 的 选择 步骤 中 可 以 利用 自动 的 或 者 人 工 的 选择 方法 。 在 第 一 种 情况 中 采 
用 人 工 选择 的 方式 从 第 一 步 得 到 的 检索 结果 中 手动 挑选 出 相关 的 文档 。 如 果 采 用 伪 相 关 反 
t (Pseudo-Relevance Feedback, PRF) 方法 那么 在 第 一 步 检索 中 最 好 的 有 个 检索 结果 被 认 
为 是 最 相关 的 。 这 种 方式 可 以 在 无 须 人 工 参 与 的 情况 下 进行 自动 查询 扩充 。 出 于 这 个 原因 ， 
PRF 也 叫做 盲目 相关 反馈 (blind relevance feedback) 。 


11.3.5 文档 先 验 模型 


在 上 述 已 经 介绍 的 检索 模型 中 ， 文 档 的 先 验 概率 被 认为 是 均匀 分 布 的 (uniform)。 也 
就 是 说 ， 检 索 文 档 的 先 验 概率 取 值 都 相同 而 与 特定 查询 无 关 。 但 是 ， 在 大 多 数 的 应 用 场景 
中 这 种 假设 是 不 成 立 的 。 例 如 ， 文 档 具 有 不 同 的 质量 和 流行 度 。 这 些 因素 必定 会 影响 文档 
的 先 验 概 率 ， 高 质量 和 非常 流行 的 文档 直觉 上 应 该 被 赋 耶 更 高 的 相关 度 似 然 率 。 

不 同 的 检索 模型 有 不 同 的 融合 文档 先 验 概 率 的 方法 。 当 使 用 回 量 空间 模型 时 ， 文 档 的 先 
验 概率 可 以 和 每 一 个 文档 的 IR 分 数 相 乘 L1j， 也 可 以 和 IR 分 数 进 行 线性 组 合 〈 在 此 特殊 的 
应 用 情形 下 ， 我 们 还 需要 优化 线性 组 合 的 权重 )。 在 概率 模型 和 语言 模型 中 ， 文 档 的 先 验 概 
X P(d) 估计 作为 模型 参数 的 一 部 分 。 在 没有 任何 背景 知识 的 情况 下 ， 文 档 的 先 验 概率 则 假 
设 为 所 有 文档 的 平均 分 布 。 然 而 ， 如 果 具 备 了 一 个 文档 的 先 验 概 率 模型 ， 我 们 可 以 直接 用 这 
个 模型 替换 原先 使 用 的 统一 概率 的 文档 模型 。 

显然 文档 的 先 验 概率 估计 建 模 依赖 于 特定 的 目标 应 用 。 例 如 ， 在 Web ERP, AF 
网 页 及 它们 之 间 超 链接 关系 的 Web 图 可 用 于 计算 网 页 的 权威 度 分 值 ， 该 分 值 就 可 以 用 做 
文档 的 先 验 概率 。PageRank [13] 和 HITS [14] 这 两 个 成 熟 的 算法 可 以 用 来 计算 Web 
图 中 的 权威 度 分 值 。 另 外 一 个 例子 是 社区 门户 搜索 。 用 户 、 使 用 模式 以 及 其 他 证 据 的 等 级 
可 用 于 计算 文档 的 先 验 概率 [15]. 


11. 3.6 模型 选择 的 最 佳 实践 


选择 一 个 检索 模型 的 主要 度量 方式 是 检索 的 效果 。 不 同 模型 的 索引 代价 和 搜索 代价 都 是 基 
本 类 似 的 。 它 们 都 基于 类 似 的 倒 排 索引 并 使 用 同样 复杂 度 级 别 的 算术 运算 来 计算 文档 分 数 。 

在 参考 数据 集 上 进行 性 能 比较 时 ， 向 量 空间 模型 、 概 率 模 型 和 语言 模型 之 间 并 没有 表 
现 出 显著 差别 。2009 跨 语言 评测 论坛 (Cross Language Evaluation Forum, CLEF) (关于 
评测 比赛 的 详细 信息 请 见 11.6 节 ) 中 TEL 数据 集 上 最 好 的 结果 由 各 种 不 同 检 索 模 型 获 
得 。 例 如 ， 在 英语 文档 的 检索 任务 中 ， 开 姆 尼 效 大 学 (University of Chemnitz) 实现 的 问 
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量 空间 模型 的 平均 精确 率 均 值 (Mean Average Precision, MAP)9 性 能 只 比 都 柏林 大 学 
(University of Dublin) 的 语言 模型 高 0. 4%。 在 法 语文 档 的 检索 任务 中 ， 卡 尔 斯 鲁 厄 大 学 
(University of Karlsruhe) 的 概率 模型 系统 则 比 最 好 的 向 量 空间 模型 高 出 1. 4% [16]。 从 
不 同 语言 上 的 结果 可 以 看 到 ， 差 异性 也 与 特定 数据 集 有 关 。 所 以 ， 我 们 无 法 判定 总 体 上 哪 
个 模型 的 效果 是 最 好 的 。 

信息 检索 模型 的 选择 也 依赖 于 可 用 的 训练 数据 集 〈 比 如 ， 以 样 例 查询 相关 性 估计 的 形 
式 ) 以 及 文档 模型 的 丰富 程度 。 当 没有 训练 数据 集 的 时 候 ， 建 议 采 用 成 熟 的 标准 模型 和 标准 
参数 ， 例 如 BM25 (在 11.3.3 节 中 介绍 ) 等 。 这 将 保证 在 新 的 数据 集 上 获得 基线 效果 。 当 具 
备 了 训练 数据 集 后 ， 这 些 模 型 的 参数 可 以 进行 动态 的 优化 和 调整 。 当 我 们 具有 丰富 的 文档 模 
型 时 ， 语 言 模型 的 加 入 也 可 以 提供 灵活 适应 方式 。 在 性 能 不 错 的 搜索 系统 上 ， 我 们 还 可 以 利 
用 采用 PRF 的 查询 扩展 手段 进一步 提升 检索 质量 。 查 询 扩展 可 以 进一步 增强 模型 的 召回 率 ， 
但 是 如 果 将 模型 的 精确 率 作为 评测 的 第 一 要 素 ， 那 么 查询 扩充 技术 就 需要 有 选择 地 使 用 。 


11.4 CLIR 


CLIR 的 任务 是 从 一 系列 用 其 他 语言 〈 文 档 集 语言 ) 表示 的 文档 集中 检索 出 与 某 种 语 
言 表 示 的 给 定 查询 串 EWER) 相关 的 文档 。 

定义 11-1 跨 语 言 信 息 检 索 (crosslingual information retrieval) 给 定 一 个 文档 集合 
D， 文 档 集 的 语言 是 lp (文档 集 语 言 ) CLIR 的 任务 是 检索 出 与 语言 o (查询 语言 ) MK 
示 的 查询 串 相 关 的 文档 列表 ， 并 对 这 些 文档 列表 进行 排序 。 这 里 万 是 一 个 单 语 言 的 文档 集 
合 ， 即 所 有 在 DD 中 的 文档 都 是 用 相同 的 语言 书写 。 

本 质 上 ， 我 们 可 以 区 分 CLIR 的 两 种 不 同 范式 。 其 一 ， 我 们 用 基于 翻译 的 方法 把 查询 
或 者 文档 集合 翻译 成 检索 系统 支持 的 语言 。 这 种 方法 采用 标准 检索 技术 把 路 语言 的 信息 检 
索 简化 为 单 语 言 的 信息 检索 任务 。 第 二 ， 可 以 把 文档 和 查询 都 映射 到 一 个 中 间 语 (概念 ) 
空间 。 相 关 度 函数 可 以 基于 这 个 中 间 语 言 的 空间 来 定义 。 


11.4.1 基于 翻译 的 方法 


基于 翻译 的 方法 把 查询 或 者 文档 集合 翻译 成 检索 系统 所 文 持 的 语言 。 基 于 翻译 的 方法 
可 以 有 不 同 的 方式 ， 一 是 使 用 不 同 的 翻译 技术 ， 二 是 翻译 的 对 象 可 以 只 是 用 户 查 询 串 或 者 
文档 集合 ， 或 者 是 对 两 者 都 进行 翻译 。 对 于 后 者 我 们 将 介绍 几 种 可 供 选 择 的 方法 。 再 者 ， 
翻译 可 以 包括 人 工 翻 译 或 者 MT 技术 的 应 用 。 

翻译 查询 串 (translating query) CLIR 的 默认 策略 是 把 查询 串 翻 译 成 文档 集合 语 
言 。 这 种 方法 可 以 有 效 地 把 CLIR 问题 简化 为 单 语言 信息 检索 。 接 下 来 我 们 罗列 了 这 种 方 
法 的 一 些 优 点 (PRO) 和 缺点 (COND, 

优点 : 

。 只 翻译 查询 串 ， 而 查询 串通 常 是 一 小 段 文本 。 

。 已 经 建立 好 的 索引 可 以 用 于 支持 任意 语言 的 查询 串 ， 只 要 这 些 查询 串 可 以 被 翻 详 

成 文档 集 所 使 用 的 语言 。 


牟 “ 平 均 精 确 率 均值 是 用 来 衡量 IR 系统 性 能 的 一 种 标准 评价 指标 。 分 值 越 高 意味 着 相关 度 高 的 文档 的 排序 靠 前 。 
MAP 的 严格 定义 见 11.6 A. 
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缺点 : 
。 必须 要 有 一 个 在 线 查询 翻译 。 因 为 检索 系统 的 响应 时 间 是 翻译 时 间 和 检索 时 间 的 
倒 加 ， 因 此 ， 我 们 需要 一 个 高 效 的 MT 系统 以 把 系统 性 能 维持 在 合适 的 水 平 。 

© 检索 系统 的 准确 性 依赖 于 所 采用 的 MT 系统 的 质量 。 

翻译 文档 (translating document) ”一 个 更 进一步 的 策略 是 把 整个 文档 集合 翻译 成 查 
询 串 的 语言 ， 并 且 为 这 种 语言 创造 一 个 倒 排 索引 。 这 在 搜寻 有 固定 查询 串 的 语言 的 场景 中 
可 能 会 有 用 ， 比 如 用 户 在 只 有 一 种 使 用 语言 的 门户 网 站 中 。 下 面 我 们 也 总 结 了 这 种 方法 的 
优点 和 缺点 。 

优点 : 

。 这 种 翻译 是 预 处 理 的 一 部 分 ， 因 为 索引 将 会 建立 在 翻译 后 的 文档 之 上 。 在 翻译 步 
又 上 几乎 没有 时 间 的 限制 ， 如 果 对 翻译 的 质量 有 过 高 的 要 求 可 以 采用 人 工 翻译 。 

缺点 : 

。 我 们 必须 事先 知道 并 固定 查询 语言 。 因 为 这 种 语言 的 索引 是 特定 的 ， 所 以 不 支持 

在 其 他 语言 上 进行 检索 。 

。 整个 文档 集合 都 需要 被 翻译 ， 代 价 比 较 高 。 

枢 轴 语言 (prvotlanguage) ”作为 上 面 两 种 方法 的 结合 ， 查 询 和 文档 在 这 种 方式 中 
被 翻译 成 枢 轴 语言 。 枢 轴 语 言 可 以 是 自然 语言 也 可 以 是 人 工 语言 ， 而 且 对 很 多 语言 都 有 相 
应 的 翻译 系统 能 翻译 到 该 语言 。 英 语 最 常 被 当成 一 种 中 枢 语 言 ， 因 为 大 量 翻 译 系统 都 可 以 
把 英语 作为 翻译 的 目标 语言 。 因 为 不 需要 把 查询 语言 直接 翻译 成 文档 语言 ， 所 以 在 没有 文 
持 查询 串 语 言 和 文档 集合 语言 互 译 的 语言 资源 时 ， 枢 轴 语 言 的 方法 就 很 有 用 了 。 

使 用 枢 轴 语言 会 把 CLIR 精简 为 标准 的 单 语言 信息 检索 问题 ， 因 为 针对 枢 轴 语言 的 IR 
系统 将 应 用 于 任意 查询 语言 和 文档 语言 对 。 然 而 ， 检 索 效 果 依 赖 于 把 查询 语言 和 文档 集 语 
言 翻 译 成 枢 轴 语言 的 质量 好 坏 。 这 种 方法 的 优点 和 和 缺点 可 以 总 结 如 下 。 

优点 : 

。 如 果 不 能 把 查询 串 语言 直接 翻译 成 文档 集合 语言 ， 可 以 采用 枢 轴 语言 来 转换 。 

。 针对 枢 轴 语言 的 IR 系统 可 以 处 理 任意 查询 和 文档 集合 语言 对 。 

缺点 : 

。 查询 串 的 在 线 翻 译 和 文档 的 离线 翻译 〈 作 为 文档 预 处 理 的 一 部 分 ) 是 必需 的 。 

查询 扩展 ”查询 扩展 技术 也 能 按照 以 下 方法 被 应 用 于 CLIR RAH: 
。 翻译 前 扩展 (pretranslation expansion) 。 查 询 串 在 被 翻译 之 前 进行 拓展 ， 然 后 被 
翻译 系统 所 处 理 。 这 里 的 优点 是 更 多 的 上 下 文 信息 可 用 于 翻译 。 在 CLIR 系统 中 ， 
这 种 扩展 方式 被 证 明 能 够 提高 检索 结果 的 准确 性 [17]. 

。 翻译 后 扩展 (posttranslation expansion) 。 等 同 于 在 单 语 言 信 息 检 索 中 使 用 的 查询 
扩展 。 在 一 个 CLIR 系统 中 ， 翻 译 后 再 拓展 查询 串 能 够 减少 翻译 误差 ， 因 为 错误 的 
翻译 能 在 查询 结果 的 局 部 分 析 中 被 发 现 〈 例 如 ， 使 用 PRF) [17]. 


11. 4.2 机 器 翻译 


正如 前 文 所 述 ， 翻 译 步 又 是 基于 翻译 的 CLIR 所 必需 的 。 在 使 用 (特定 语言 的 ) 倒 排 
索引 进行 检索 之 前 ， 需 要 把 查询 串 或 者 文档 集 事先 进行 翻译 。 请 专业 翻译 人 员 进 行人 工 翻 
译 的 成 本 通常 比较 高 。 文 档 的 人 工 翻 译 不 适用 于 大 规模 的 语料库 ， 并 且 不 可 能 对 查询 串 进 
行 实时 翻译 ， 所 以 这 种 方式 在 反应 时 间 需 要 以 秒 来 计算 的 检索 系统 中 (如 Web 检索 ) 可 
行 性 不 高 。 这 也 促使 机 器 翻译 在 CLIR 系统 中 的 应 用 。 
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在 这 一 章 ， 我 们 介绍 了 在 CLIR 系统 中 使 用 的 两 种 主要 机 器 翻译 技术 一 一 基于 字典 的 
翻译 (dictionary-based translation) 和 统计 机 器 翻译 (statistical machine translation) 。 

基于 字典 的 翻译 查询 翻译 的 一 个 直接 方法 是 使 用 双语 词典 进行 逐 项 翻译 。 这 里 处 理 
候选 术语 翻译 有 多 种 不 同 策略 ， 包 括 采 用 最 常见 翻译 到 考虑 所 有 可 能 翻译 等 。 有 趣 的 是 ， 
Oard [18] 的 工作 表明 在 CLIR 系统 中 不 同 策略 并 没有 显著 差别 。 当 使 用 所 有 候选 翻译 
时 ， 各 查询 术语 会 利用 其 翻译 概率 进行 加 权 。 

Ballesteros 和 Croft [17] 提出 采用 翻译 后 扩展 的 方式 能 减少 基于 字典 查询 翻译 的 翻 
详 错误 率 。 他 们 的 实验 使 用 PRF 进行 查询 扩展 以 删除 由 翻译 而 引入 的 无 关 术 语 ， 从 而 提 
高 了 检索 效果 。 

统计 机 器 翻译 ”与 基于 词典 的 翻译 相对 比 ， 统 计 机 器 翻译 (SMT) 旨 在 翻译 出 完整 的 
句子 。 因 此 SMT 原则 上 能 被 用 于 查询 串 和 文档 集合 的 翻译 (参见 第 10 章 对 机 器 翻译 的 详 
细 讨 论 ) 。 

大 部 分 目前 的 SMT 系统 都 基于 Brown 等 人 [19] 提出 的 IBM 模型 。 这 种 翻译 模型 
事先 在 双语 平行 句 对 语料库 上 通过 和 迭代 循环 训练 出 一 些 双 语词 语 对 的 概率 模型 。 在 训练 过 
程 的 两 个 子 步骤 中 ， 双 语句 对 的 术语 对 齐 模型 和 术语 翻译 模型 不 断 被 优化 。 最 终 的 翻译 模 
型 是 上 述 两 步 迭 代 优 化 的 产物 。 通 过 把 短语 作为 翻译 单元 ， 可 以 进一步 提高 模型 的 性 能 。 
这 种 方式 不 但 可 以 学 习 和 利用 单个 术语 的 翻译 和 对 齐 ， 而 且 还 可 以 学 习 和 利用 像 New 
York 这 样 的 短语 。 采 用 额外 的 语言 模型 (在 大 型 单 语 语料库 上 训练 出 来 的 ) 等 其 他 的 相 
关 语 言 学 知识 ， 可 以 提高 翻译 的 效果 。 

应 用 SMT 系统 的 缺点 是 ， 查 询 串 的 在 线 翻 译 需 要 消耗 比较 长 的 时 间 ， 同 时 也 需要 一 
个 训练 语料库 去 训练 统计 翻译 模型 。 但 是 随 着 电脑 硬件 水 平 的 不 断 提升 和 在 大 型 分 布 式 在 
线 翻译 系统 的 应 用 ， 这 个 时 间 上 的 瓶颈 也 不 存在 很 大 的 问题 。 实 际 上 ， 最 新 系统 已 经 足以 
应 付 实 时 查询 翻译 。 但 是 对 于 某 些 特殊 的 语言 对 来 说 ， 训 练 语 料 的 缺少 也 是 一 个 不 容 忽视 
的 问题 [20]. 


11.4.3 中 间 语 言 文 档 表 示 


另外 一 种 与 基于 翻译 的 CLIR 是 利用 中 间 语 言 表示 文档 。 本 质 上 这 种 技术 是 把 查询 串 
和 文档 集合 都 映射 到 一 个 中 间 语 言 的 概念 空间 Cconcept space)。 与 基于 术语 的 文档 表示 
不 同 的 是 ， 概 念 表 示 语 义 单元 Cunits of thought)， 因 此 可 以 认为 是 语言 无 关 的 。 但 是 把 
文档 集合 映射 到 中 间 语 言 所 表示 的 概念 空间 则 需要 特定 语言 的 映射 函数 。 例 如 ， 这 样 的 映 
射 会 依赖 于 不 同 语言 术语 与 某 一 种 中 间 语 言 的 概念 术语 之 间 关 联 程 度 的 量化 值 (聚合 后 文 
档 也 如 此 )。 通 过 把 查询 串 和 文档 都 映射 到 同一 个 概念 空间 ， 信 息 检索 问题 被 简化 为 比较 
查询 和 文档 概念 向 量 。 因 此 我 们 可 以 采用 一 些 标准 的 相似 度 计算 方 法 ， 如 向 量 (代表 查询 
和 文档 的 向 量 ) 角度 的 余弦 ， 去 计算 这 两 个 向 量 的 相似 度 ， 进 而 可 以 按照 相关 性 分 数 对 检 
索 结 果 进 行 排序 。 下 面 我 们 介绍 两 种 已 被 应 用 到 CLIR 中 的 中 间 语 言 概 念 空间 方法 。 

潜在 语义 索引 (Latent Semantic Indexing. LSD ， 在 单 语 情形 中 ，LSI 可 以 用 来 识别 文 
本 语料库 中 的 潜在 主题 信息 。 这 些 主题 与 先前 描述 的 概念 相对 应 ， 通 过 利用 文档 中 同时 出 现 
的 术语 而 被 提取 出 来 。 这 可 以 通过 术语 -文档 矩阵 进行 奇异 值 分 解 而 获得 [21]。 潜 在 主题 就 
对 应 具有 最 大 奇异 值 的 特征 问 量 ,这 样 就 得 到 了 术语 问 量 到 主题 向 量 (topic vector) 的 一 个 
映射 函数 。LSI 最 初 被 应 用 于 文本 表示 中 的 降 维 ， 以 及 实现 同义词 或 者 相近 术语 的 检索 。 通 
过 使 用 平行 训练 语料库 进行 训练 ，LSI 可 以 应 用 于 CLIR [22]. 在 这 种 情形 下 ， 提 取 的 主题 
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跨越 不 同 语言 的 术语 ， 而 映射 函数 把 所 有 语言 的 文档 映射 到 相同 的 潜在 主题 空间 。 

显 性 语义 分 析 (Explicit Semantic Analysis, ESA) 最 近 ，ESA 被 用 做 另 一 种 基于 
概念 的 检索 模型 | 23]。 概 念 的 定义 一 般 是 明确 的 而 且 与 菜 些 外 部 知识 资源 相关 联 。 通 过 
使 用 每 个 概念 文本 化 的 描述 ， 可 以 把 文档 映射 到 概念 空间 。 已 用 于 ESA 的 这 类 资源 实例 
(iG eR AE) 有 维基 百科 和 维基 词典 。 如 果 概 念 的 文本 化 描述 对 对 于 检索 系统 所 
支持 的 语言 都 可 用 ， 则 ESA 就 能 够 被 应 用 到 CLIR。 当 使 用 维基 百科 作为 一 种 多 语言 的 资 
源 时 ， 跨 语言 的 链接 可 以 被 应 用 于 建立 多 语言 的 概念 定义 。Cimiano 等 人 [24] 已 经 证 明 
ESA 可 以 扩展 到 跨 语 言 的 信息 检索 。 


11. 4.4 最 佳 实 践 


在 大 多 数 情况 下 ， 对 查询 串 进行 翻译 是 构建 CLIR 系统 最 灵活 的 方法 。 不 但 能 支持 任 
意 查询 语言 ， 在 能 翻译 为 文档 或 索引 语言 的 任意 语言 中 检索 时 也 可 使 用 同样 的 索引 。 然 
而 ， 它 的 成 功 依赖 于 可 用 的 能 实时 翻译 查询 串 和 文档 集 的 机 器 翻译 系统 。 假 设 只 有 有 限 的 
资源 ， 把 查询 串 和 文档 翻译 成 具有 大 量 翻译 资源 的 中 间 语 言 ， 可 能 是 最 好 的 方法 。 

Oard 的 工作 表明 ， 对 查询 串 的 翻译 而 言 ，SMT 系统 优 于 基于 字典 系统 。 因 而 推荐 使 
JH SMT 翻译 系统 〈 无 论 商 业 还 是 开源 系统 )。 然 而 ， 如 果 检 索 系 统 针 对 特定 领域 ， 那 么 采 
用 领域 术语 词典 进行 翻译 的 系统 ， 其 效果 要 好 于 采用 那些 一 般 性 SMT 的 系统 [18]。 如 果 
我 们 已 经 有 了 领域 相关 的 语 料 ， 那 么 采用 基于 术语 词典 的 翻译 策略 再 加 上 检索 后 扩展 技术 
(postretrival expansion) 对 于 CLIR 系统 来 说 是 最 好 的 选择 。 


11.5 多 语言 信息 检索 
与 CLIR 对 比 MLIR (Multilingual Information Retrieval， 多 语言 信息 检索 ) 考虑 了 
包含 有 用 不 同 语言 书写 的 文档 的 语料库 。 其 定义 如 下 : 


定义 11-2 多 语言 信息 检索 给 定 一 个 文档 集合 I3, 其 所 含 文 档 语 言 为 lis im. | ls 
MLIR 的 任务 是 检索 出 与 用 语言 ls 表示 的 查询 串 g 相关 的 文档 集合 ， 并 且 对 检索 结果 进行 
相关 性 排序 。 这 些 相 关 的 文档 可 能 分 布 在 所 有 的 语言 ly BO gs l, P. 


如 果 文 档 集合 由 不 同 语言 的 文档 组 成 ， 并 且 检 索 系 统 的 使 用 者 至 少 对 部 分 文档 语言 
具有 一 些 知识 ， 则 MLIR 就 可 以 应 用 。 在 大 多 数 情 况 下 ， 有 些 用 户 的 确 拥 有 除了 母语 C 
询 所 用 的 语言 ) 以 外 的 某 些 语言 基本 的 阅读 和 理解 技能 。 特 别 是 针对 那些 跨国 企业 中 的 用 
户 和 一 些 网 络 用 户 而 言 。 如 果 用 户 不 能 理解 检索 结果 的 语言 ， 那 么 可 以 利用 机 器 翻译 的 手 
段 把 检索 结果 翻译 成 用 户 的 母语 。 l 

大 体 来 说 ，MLIR 系统 是 建立 在 和 CLIR 系统 相 类 似 的 技术 以 及 CLIR 系统 所 采用 的 
相同 翻译 方法 的 基础 之 上 的 。 当 然 多 语言 信息 检索 用 到 的 索引 结构 和 相关 度 的 计算 方法 相 
比 单 语言 与 跨 语 言 检索 所 使 用 的 还 是 有 所 不 同 。 下 面 ， 我 们 简要 描述 这 些 不 同 ， 从 统一 案 
引 到 多 语言 相关 的 索引 均 有 涉及 。 如 果 文 档 所 用 的 语言 事先 不 知道 ， 那 么 在 预 处 理 阶 段 就 
需要 语言 识别 算法 识别 这 些 文档 所 用 的 语言 。 


11. 5. 1 语言 识别 


语言 识别 就 是 标记 出 文档 内 容 书 写 所 用 的 语言 。 下 面 ,， 我 们 假设 文档 是 单 语 言 的 ,也 
就 是 文档 所 包含 的 内 容 只 涉及 一 种 语言 。 在 这 一 节 的 最 后 我 们 也 会 简要 地 介绍 一 下 关于 混 
合 语言 类 型 的 文档 等 更 为 复杂 的 情形 
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语言 识别 问题 可 以 简单 看 成 一 个 标准 的 离散 类 别 分 类 问题 。 其 目标 种 类 是 一 个 语言 集 
合 ， 其 任务 则 是 把 文档 分 类 为 这 些 语言 种 类 中 的 一 种 。 如 果 已 经 有 了 每 种 语言 的 单 语言 训 
练 语料库 ， 我 们 可 以 采用 有 监督 的 机 咽 学 习 方 法 。 基 于 文档 字符 n 元 组 表示 的 方法 是 目前 
效果 最 好 的 分 类 方法 。Cavnar 和 Trenkle [25] 给 出 了 在 14 种 语言 的 语言 识别 任务 上 的 
结果 ， 达 到 了 99% 的 准确 率 。 他 们 通过 提取 字符 n 元 模型 (n 二 1]，…，5) 为 每 个 文档 建 
立 术 语 问 量 。 这 里 一 个 很 重要 的 方面 是 ,我 们 可 以 用 各 种 语言 的 单 语 的 语 料 去 训练 各 个 语 
言 识别 任务 的 分 类 器 而 不 需要 对 齐 的 语料库 ， 因 此 ， 这 种 方法 理论 上 可 适用 于 任意 的 语言 
集合 。 进 一 步 说 ， 因 为 字符 nn 元 组 建立 在 字符 流 的 基础 之 上 上， 并且 不 存在 词 分 割 ， 因 而 这 
种 方法 也 不 需要 对 文档 进行 预 处 理工 作 。 这 种 语言 识别 方法 的 准确 性 依赖 于 文档 的 长 度 ， 
因为 越 长 的 文档 提供 越 多 该 语言 的 证 据 。Cavnar 和 Trenkle 的 实验 表明 对 于 超过 300 个 字 
符 的 文档 而 言 训练 出 的 分 类 器 ， 能 够 获得 99%% 甚 至 更 高 的 精确 率 。 

把 上 述 的 分 类 器 应 用 在 包含 多 语言 的 混合 型 文档 上 ,会 导致 无 法 预测 的 分 类 结果 。 因 
为 这 种 情况 下 ， 由 于 各 个 语种 语言 学 特征 的 相互 重 又 导致 术语 或 者 nn 元 组 〈 恰 是 分 类 器 所 
用 的 信息 〉 的 语言 相关 分 布 会 被 丢失 ， 所 以 这 些 文档 不 得 不 事先 被 分 割 为 单 语 言 组 成 部 
分 。 但 是 随 着 对 章节 、 上 段落 以 及 句子 的 分 割 ， 就 会 产生 较 短 的 文档 ， 在 这 些 短文 档 上 训练 
分 类 器 的 效果 就 会 下 降 。 


11.5.2 MLIR 的 索引 建立 


MLIR 有 两 种 主要 方法 建立 倒 排 索引 ， 这 些 方法 的 主要 区 别 在 于 ， 建 立 一 个 索引 GR 
一 索引 方式 ) 还 是 分 别 为 多 个 语言 建立 不 同 的 索引 (多 索引 方式 )。 单 一 索引 方式 为 内 含 
多 种 语言 的 文档 集合 建立 一 个 索引 。 对 于 构建 这 样 的 单一 索引 我 们 介绍 如 下 三 种 技术 。 

文档 翻译 (document translation) 首先 把 所 有 文档 都 转换 为 一 种 枢 轴 语言 ，MLIR 
的 问题 就 被 精简 为 CLIR 问题 。 此 单一 索引 将 包含 所 有 翻译 后 的 文档 。 

语言 标记 前 绎 (language token prefix) Nie [26] 建议 为 每 个 词 元 添加 语言 前 级 信 
息 以 建立 统一 索引 。 这 保证 具有 相同 字符 的 不 同 语言 的 术语 可 以 被 区 分 开 来 。 统 一 索引 的 
术语 词典 包含 了 所 有 语言 的 术语 。Nie 主张 这 种 统一 索引 可 以 保留 诸如 术语 频率 和 文档 长 
度 等 的 术语 分 布 。 

概念 索引 (concept index) ”如 前 讨论 ， 语 言 无 关 的 概念 索引 也 可 用 于 MLIR。 不同 
语言 的 文档 被 映射 到 同样 的 中 间 语 言 概念 空间 ， 在 这 种 方式 下 ， 多 语言 语料库 只 需要 创建 
单个 的 概念 案 引 。 | 

多 索引 方式 为 语料库 中 的 每 种 语言 文档 都 建立 了 对 应 的 索引 。 有 两 种 不 同 的 技术 : 

特定 语言 索引 (language-specific index) ”在 多 语言 集合 中 的 每 种 语言 的 文档 被 添加 
到 其 对 应 语言 的 索引 中 ， 在 这 种 情况 下 需要 事先 识别 出 各 种 语言 以 便 应 用 特定 语言 预 处 
理 。 对 于 单 语 言 文档 而 言 ， 包 含 在 每 个 索引 中 的 文档 集合 是 不 相交 的 。 对 于 多 种 语言 表示 
的 混合 型 文档 ， 不 同 语言 的 内 容 会 被 添加 到 各 自 语 言 的 索引 中 。 这 种 情况 下 ， 文 档 可 能 会 
出 现在 许多 个 特定 语言 索引 中 。 

特定 预 处 理 (specific preprocessing) “对 于 每 种 语言 ， 一 个 包含 语料库 中 所 有 文档 的 索 
引 会 被 创建 出 来 。 但 是 ， 这 些 文档 的 预 处 理 方 式 将 随 着 索引 语言 的 不 同 而 不 同 。 因 此 对 于 每 
个 索引 ， 文 档 被 认为 与 索引 的 语言 相同 。 这 样 ， 每 个 文档 都 包含 于 所 有 的 索引 之 中 。 


11.5.3 翻译 查询 串 
索引 策略 的 不 同 也 导致 了 查询 串 翻译 策略 的 不 同 。 对 于 建立 在 文档 翻译 或 者 概念 索引 基础 
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上 的 单一 索引 结构 ， 查 询 串 的 翻译 类 似 于 在 CLR 中 提 到 的 查询 串 翻 译 策略 ， 请 参考 11.4 节 。 

对 于 多 索引 结构 ， 查 询 串 需要 被 翻译 成 所 有 文档 语言 。 根 据 所 用 索引 不 同 ， 翻 译 的 应 
用 方式 也 不 同 : 

语言 标记 前 组 (language token prefix) 若 每 个 术语 都 有 语言 前 级 的 统一 索引 ， 查 
询 将 通过 连接 所 有 查询 翻译 并 为 各 查询 词 元 添加 语言 前 缀 而 形成 。 标 准 的 IR 模型 可 以 查 
询 统一 索引 。 

多 索引 (multiple index) “在 多 索引 的 结构 上 进行 检索 ， 需 要 把 查询 串 翻 译 成 不 同 的 
语言 ， 然 后 再 应 用 到 对 应 语言 的 倒 排 索引 上 进行 检索 。 这 种 方法 检索 出 来 的 结果 将 包含 各 
语言 的 特定 语言 排序 ， 还 需 进一步 合并 为 一 个 聚合 分 值 并 确定 出 一 个 聚合 排序 。 接 下 来 我 
们 讨论 最 重要 的 聚合 模型 。 


11.5.4 聚合 模型 


基于 多 索引 结构 的 检索 需要 分 值 聚合 模型 ， 因 为 依据 各 语言 证 据 而 形成 的 排序 必须 合 
FFA RAR. SERRA Lathe ol}. Bil g 和 各 文档 的 特定 语言 分 值 score: 
(dg，9q)， 一 个 直接 的 方法 是 将 所 有 语言 分 值 求 和 : 


score(q.d) = X "score, (q.d) 
lEL 


然后 可 以 利用 这 个 聚合 分 值 产生 文档 的 一 个 总 体 排名 。 

这 一 聚合 策略 的 主要 问题 是 分 值 的 潜在 非 兼容 问题 。 简 单 对 分 值 进行 累加 ， 事 实 上 是 
假定 在 各 排序 中 绝对 分 值 表 示 了 同样 的 相关 度 水 平 。 但 是 对 大 多 数 检索 模型 来 说 ， 情 况 并 
韭 如 此 。 分 值 的 绝对 值 将 依赖 于 文档 集合 的 统计 数据 和 术语 权重 ， 如 文件 数量 、 词 元 数 
量 、 平 均 文档 长 度 或 者 文档 频率 等 。 对 于 每 个 索引 这 些 值 都 是 不 同 的 ， 因 此 这 些 分 值 未 必 
是 可 比 的 。 为 了 解决 这 一 问题 ， 通 常 在 排名 模型 的 聚合 前 对 每 个 分 值 进行 归 一 化 处 理 。 
MLIR 常用 的 一 个 标准 方法 是 Zscore 归 一 化 [27]。 每 个 排名 都 使 用 统计 指标 对 它们 的 分 值 
进行 归 一 化 处 理 : 最 小 分 值 、 平 均 分 值 和 标准 差 。 给 定 以 查询 和 文档 相关 度 评 判 形 式 呈 现 的 
训练 数据 ,我 们 可 以 应 用 机 器 学 习 技术 来 计算 合并 分 值 的 最 优 权重 (参见 Croft [28 D. 

完整 的 Z-score 归 一 化 的 聚合 步骤 展示 在 算法 11-2 中 。 给 定 一 个 排序 集 R= nri nj 
算法 对 这 些 排名 进行 综合 计算 得 到 合并 排序 xr. 。 第 一 步 ， 用 最 小 值 、 平 均值 和 数值 标准 差 
来 对 每 个 排名 r: 进行 归 一 化 。 第 二 步 ， 对 每 个 文档 在 所 有 排名 中 的 分 值 进行 办 加 。 最 后 ， 
利用 此 聚合 分 值 对 这 些 文档 进行 降序 重 排 并 获得 合并 的 排序 。 


11. 5.5 最 佳 实践 


相 比 CLIR, 将 文档 按 其 原始 语言 进行 索引 并 使 用 翻译 后 的 查询 进行 检索 ， 这 对 
MLIR 而 言 是 很 一 种 最 灵活 的 方法 ， 因 为 它 直 接 支 持 新 语言 的 查询 串 并 且 可 用 于 新 检索 和 
聚合 模型 。 这 种 索引 还 具备 一 个 有 趣 的 特性 : 如 果 翻 译 系统 被 改变 或 者 被 更 新 也 没有 必要 
重新 建 索引 。 一 个 对 MLIR 的 最 新 评估 结果 (Bl CLEF workshop 2009 [16] WWR) 显 
示 ， 目 前 最 好 的 MLIR 系统 就 采用 了 多 语言 索引 结构 。SMT 系统 因此 被 用 来 进行 查询 串 
的 翻译 ， 聚 合 分 值 的 计算 用 的 是 Z-score 归 一 化 策略 [29]. 

使 用 带 语言 前 级 的 统一 索引 对 在 现成 IR 系统 基础 上 建立 起 来 的 MLIR 系统 而 言 是 较 
好 的 选择 。 因 为 这 种 方式 不 影响 索引 的 建立 和 检索 等 步 又 ， 只 影响 了 文档 的 预 处 理 〈 在 词 
元 上 增加 语言 前 缀 标记 ) 和 检索 串 的 调整 (翻译 及 增加 语言 前 缀 )。 


pll*X FAEERE 283 


算法 11-2 BF Z-score 归 一 化 方法 对 多 排序 结果 ri, ，…，rn 进行 聚合 。 对 于 给 定 排序 r，r[ 门 定义 了 
第 i 名 的 分 值 ; score,(d) 则 定义 了 文档 d 的 分 值 ; MIN, MEAN 以 及 STD-DEVIATION 也 都 
在 排序 r 的 分 值 基础 上 定义 


Re {ry sivas ey Ta} 
for all r € R do // 归 一 化 
4 二 MEAN(7) 
a — STD-DEVIATION(r) 
ó ic ji— MIN(T) 
for iz L..|r| do 
r(i) — rn +ô 
end for 
end for 


re — {} 
for all d € D do // RA 
s —0 
for all r € R do 
s — s + score, (d) 
end for 
score, (d) —— s 
end for 
re + DESCENDING-SORT(r,) 
return rte 


11.6 信息 检索 的 评价 


任何 IR 系统 的 根本 目标 是 满足 用 户 的 信息 需求 。 但 是 使 用 者 的 满意 度 是 非常 难以 量 
化 的 。 因 此 IR 系统 的 评价 通常 是 建立 在 相关 度 这 一 概念 基础 上 的 ， 其 中 相关 度 由 执行 系 
统 评价 的 团队 来 评估 。 我 们 可 以 采用 一 个 二 值 的 评价 指标 去 定义 相关 性 ， 文 档 和 查询 要 人 么 
相关 ， 要 么 不 相关 ; 也 可 以 采用 一 个 实 值 定义 相关 性 ， 评 价 系 统 主要 评价 检索 得 到 的 文档 
和 查询 串 的 相关 程度 。IR 系统 的 评估 中 最 常 应 用 的 是 前 者 。 给 定 文档 和 查询 间 相 关 与 否 
的 规范 ，IR 系统 的 目标 是 最 大 化 所 返回 文档 中 相关 文档 的 数量 同时 将 返回 的 不 相关 文档 
的 数量 最 小 化 。 如 果 IR 系统 对 这 些 结果 进行 相关 程度 的 排序 ， 则 其 目标 就 是 把 相关 度 最 
高 的 文档 排 在 前 面 而 把 不 相关 的 排 后 面 。 现 在 已 提出 了 多 个 把 握 这 些 直 觉 的 评价 方法 。 此 
外 ， 这 几 年 来 几 个 包含 人 工 相 关 度 评判 的 参考 集 也 被 开发 出 来 了 。 在 这 些 数据 集 上 的 结果 
是 可 重 现 的 ， 因 而 这 些 数据 允许 不 同 的 系统 开发 者 相互 比较 ， 并 可 找 出 在 某 个 特定 任务 下 
表现 最 好 的 检索 模型 、 预 处 理 模 块 、 索 引 策 略 等 。 

本 节 中 ， 我们 首先 介绍 遵循 克 兰 菲尔德 范式 (Cranfield paradigm) 的 实验 环境 ， 然 后 
介绍 各 种 评价 指标 及 采用 它们 的 动机 ， 这 些 指标 是 基于 相关 性 评估 方法 的 。 我 们 介绍 了 创 
建 相关 性 评估 的 人 工 和 自动 方法 。 最 后 ， 我 们 还 概述 了 能 用 于 评价 CLIR 和 MLIR 系统 的 
数据 集 。 


11. 6. 1 建立 实验 环境 


用 来 评价 IR 系统 效果 的 实验 设置 必须 确保 该 实验 是 可 以 重 现 的 ， 这 也 是 开发 殉 兰 菲 尔 
德 评价 范式 的 主要 初衷 。 根 据 这 一 范式 ,我们 需要 一 个 固定 的 语料库 ， 还 需要 设置 能 够 描述 
需要 的 信息 的 最 少数 量 的 检索 主题 以 及 一 个 用 作 IR 系统 输入 的 查询 串 。 期 望 被 评估 的 系统 
能 够 对 文档 集 建 立 索 引 ， 并 返回 每 个 主题 (查询 ) 的 (排序 的 ) 检索 结果 。 为 了 减少 偶然 误 
差 ， 要 设置 一 定数 量 的 话题 以 便 产生 稳定 的 统计 结果 ， 通 常 建议 设置 至 少 50 个 话题 。 

每 一 话题 都 有 一 个 标准 答案 ， 定 义 了 集合 里 的 相关 文档 [2]。 这 里 相关 性 的 概念 通常 
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是 二 值 的 ， 即 文档 和 给 定 查询 是 否 相 关 。 使 用 该 标准 答案 ,我 们 可 以 通过 检查 IR 系统 所 
返回 的 文档 是 否 与 该 话题 相关 以 及 是 否 所 有 相关 文档 都 被 该 系统 检索 出 来 而 实现 对 其 评 
价 。 这 些 概 念 可 通过 特定 的 评价 指标 实现 量化 ,通常 应 该 是 希望 被 最 大 化 的 (参见 11. 6.3 
方 )。 由 于 使 用 者 的 满意 度 通 常 很 难 被 量化 ， 相 应 的 评价 实验 也 很 难 重 现 ， 所 以 使 用 标准 
答案 (包含 预定 义 的 话题 和 给 定 的 相关 度 评估 方法 ) 的 评价 策略 是 我 们 经 常 采 取 的 策略 。 


11.6.2 相关 性 评估 


信息 检索 实验 通常 需要 所 谓 的 相关 性 评估 (relevance assessment) 以 建立 标准 答案 。 虽 
然 对 诸如 原始 Cranfield 语料库 的 较 小 数据 集 ， 有 可 能 采用 人 工 评估 者 手动 对 各 话题 的 所 有 文 
档 进 行 检 查 的 方式 ， 但 这 种 方式 对 大 文档 集合 就 难以 实施 了 L2j。 因 此 所 谓 的 结果 汇集 (re- 
sult pooling) 技术 就 被 采用 以 避免 评估 者 浏览 每 个 话题 的 所 有 有 关 文 档 集 合 。 其 思路 是 ， 汇 
EZA IR 系统 排名 靠 前 的 文档 并 进行 评价 。 对 于 不 同系 统 排 名 在 前 & 位 的 文档 才 会 被 考虑 ， 
k 通 常 是 100 或 者 1000。 由 于 相关 性 评估 对 于 不 同 的 评估 者 差异 较 大 ， 每 个 文档 /主题 对 通常 
都 会 由 多 个 评估 者 来 评判 。 标 准 答案 中 所 包含 的 最 终 相 关 性 决策 是 一 个 聚合 值 ， 例 如 可 以 用 
基于 大 多 数 的 投票 机 制 来 确定 。 标 注 者 间 的 一 致 性 指标 ， 例 如 kappa 统计 量 (kappa statistic) 
[2]， 则 是 实验 有 效 性 的 标志 。 低 一 致 性 可 能 来 源 于 信息 需求 本 喘 定义 的 模糊 。 

通过 在 汇集 中 引入 多 个 系统 ， 研 究 者 试图 减少 针对 单个 系统 的 相关 性 评价 的 偏见 。 男 
外 ， 测 试 集合 应 该 是 充分 完备 的 ， 以 便 此 相关 评价 能 够 重用 于 未 在 初始 汇集 中 出 现 的 TR 
技术 或 者 系统 。 

CLIR 和 MLIR 系统 的 另外 一 种 评估 方法 是 配对 检索 (mate retrieval) 设置 。 该 设置 
通过 使 用 平行 或 对 齐 数据 集 〈 包 含 文档 及 其 到 所 有 相关 语言 的 译文 )， 避 免 了 对 相关 性 
评判 的 需求 。 评 测 所 用 的 主题 同 语料库 的 一 个 数据 集合 相对 应 。 该 主题 的 配对 (mate), 
即 文档 在 不 同 语言 中 的 等 价 物 ， 则 被 认为 是 唯一 相关 的 文档 。 如 此 ， 各 系统 的 目标 就 是 
恰好 检索 出 这 些 配对 。 因 此 ， 这 种 标准 答案 能 够 被 自动 构建 。 使 用 此 标准 答案 的 评价 指 
标明 显 被 低估 了 ， 因 为 其 他 文档 也 有 可 能 是 相关 的 文档 。 


11.6.3 评价 指标 

在 给 定 了 一 个 包含 相关 评价 方法 的 标准 答案 和 确定 的 数据 集 后 ， 我 们 需要 一 些 评价 指 
标 去 衡量 信息 检索 系统 的 效果 。 信 息 检索 中 最 常用 的 评价 指标 是 精确 率 和 召回 率 。 精 确 率 
测量 检索 系统 的 结果 文档 集中 相关 文档 所 占 的 比重 。 召 回 率 则 测量 相关 文档 被 检索 系统 实 
际 检索 出 来 的 比重 。 

精确 率 和 召回 率 的 计算 方式 可 以 依据 表 11-1 针对 单个 查询 的 检索 结果 列 联 表 
K 11-1 给 出 的 针对 单个 查询 的 检索 结果 列 相关 不 相关 
联 表 (contingency table) 来 解释 。 精 确 率 p TP FP 
P SUB BIS R 的 定义 如 下 : 未 检 出 FN TN 


Me ME 
TP + FP TP + EN 


要 选择 一 个 合适 的 评估 方法 ， 了 解 信息 检索 系统 的 应 用 场景 是 关键 。 有 些 场景 下 ， 例 
如 编写 报告 等 ， 用 户 可 能 需要 读 完 全 部 的 文档 ; 而 另外 一 些 场景 下 ， 比 如 Web 上 的 即时 
搜索 ， 用 户 可 能 只 查阅 排 在 最 前 面 的 文档 集 。 这 些 特别 极端 的 例子 清楚 地 说 明了 评价 指标 
的 选择 与 IR 系统 的 使 用 方式 密切 相关 。 
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AERA oe CBN BER PTA AAC) 都 同样 重要 的 检索 系统 (未 必 就 是 Web 
搜索 ) 来 说 ,平均 精确 率 (Average Precision, AP) 就 是 一 个 合理 的 选择 。 平 均 精 确 率 对 排序 中 
各 特定 位 置 的 精确 率 进 行 平均 。 具 体 说 来 ， 这 些 位 置 就 是 所 找到 的 相关 文档 的 位 置 。 

假设 对 个 文档 中 的 r 个 进行 排序 ， 相 关 文 档 集 为 REL, reli D—(0,1). 是 判断 文档 
是 否 相 关 的 二 值 函 数 ( 相 关 就 是 1， 不 相关 就 是 0)，P 表示 截断 等 级 (cutoff level) Hk 
时 的 精确 率 ， 则 AP 可 按 如 下 公式 计算 : 


» PX rel Gi 


s gang 
AP (r) = XO RENS... 


平均 精确 率 均 值 (Mean Average Precision, MAP) 在 所 有 的 文档 主题 上 对 AP 取 平 均值 ， 
可 以 用 来 评价 IR. 系统 的 整体 性 能 。 

MAP 和 其 他 的 评价 指标 ， 例 如 bpref [31] 或 者 infAp [32] 的 一 个 共同 特性 是 它们 
主要 关注 对 每 个 查询 〈 最 大 到 预先 确定 的 上 限 ， 通 常 是 1000) 所 检 出 的 所 有 文档 的 整体 检 
索性 能 。 前 已 提 及 ， 在 用 户 需 要 系统 检索 出 尽 可 能 多 的 相关 文档 的 这 种 应 用 场景 下 ， 这 种 
评价 方式 是 比较 合理 的 。 但 是 用 户 可 能 不 会 浏览 IR 系统 所 检索 出 的 所 有 这 1000 篇 文档 。 
所 以 其 他 评价 指标 也 被 提出 以 针对 用 户 仅 检 查 有 限 CHER SERE RO 文档 子 集 的 情况 下 评估 
检索 系统 的 正确 性 。 例 如 ， 可 以 在 一 个 给 定 的 排名 上 计算 精确 率 〈 记 为 P@r)。 排 名 10 以 
上 的 精确 率 (P@10) 通常 用 于 测量 首先 检 出 的 文档 集 的 准确 率 。 为 使 排名 最 靠 前 的 文档 
正确 ， 我 们 经 常会 使 用 最 相关 文档 的 平均 排名 倒数 。 

有 时 ， 相 关 性 评估 包含 多 个 相关 性 等 级 并 结合 了 类 似 归 一 化 折扣 术 计 增益 (Normal- 
ized Discounting Cumulative Gain，NDCG) [33] 的 指标 ， 该 指标 将 高 相关 度 文档 的 排名 
先 于 低 相 关 度 文档 的 偏好 纳入 考虑 。 


11.64 已 有 数据 集 


通过 重用 包含 公共 文档 语料库 、 话 题 、 查 询 和 相关 性 评估 方法 的 共享 数据 集 ，IR 实 
验 才 变 得 可 重 现 ， 结 果 才 变 得 可 比较 。 信 息 检索 领域 中 ， 已 经 出 现 了 一 些 初步 定义 检索 任 
务 并 提供 相关 数据 集 的 评测 。 

除了 评测 任务 提供 的 数据 集 之 外 ， 平 行 语料库 也 是 CLIR 和 MLIR 信息 检索 系统 所 需要 
的 。 平 行 语料库 资源 可 以 用 来 训练 统计 模型 、 例 如 训练 SMT 系统 或 者 训练 LSI 模型 来 识别 
跨 语言 潜在 概念 。 此 外 平行 语料库 也 可 以 被 当 作 测试 集 ， 例 如 ， 在 配对 检索 的 应 用 场景 中 。 

1. 评测 任务 

文本 检索 会 议 (Text REtrieval Conference, TREC) 每 年 都 举行 ， 其 目标 是 建立 对 IR 
系统 进行 系统 评价 和 比较 的 平台 。TREC 组 织 了 不 同 的 Track (表示 不 同 的 信息 检索 任 
务 ， 例 如 特定 搜索 、 实 体 搜 索 或 特殊 领域 搜索 等 )。TREC 为 每 个 Track 都 提供 了 数据 集 
和 话题 /查询 〈 以 及 相关 性 评价 )， 以 便 参 与 者 可 以 用 它们 进行 系统 的 开发 和 调节 。T 了 TREC 
从 1992 开始 采用 汇集 技术 以 支持 使 用 测试 集 不 完全 评估 方式 对 IR 系统 交叉 对 比 。TREC 
等 相关 会 议 的 举办 是 为 了 弘扬 竞争 精神 ， 不 同 的 开发 组 在 共享 的 任务 和 数据 集 上 开发 出 系 
统 来 相互 竞争 ， 这 种 方式 可 以 使 得 竟 争 的 结果 具 可 比 性 。 这 些 评 测 任务 使 研究 者 能 够 了 解 
在 特定 任务 中 哪 种 信息 检索 模型 或 参数 调节 方法 等 效果 更 好 ， 因 而 真正 从 本 质 上 起 到 了 推 
动 科学 研究 进步 的 作用 。 当 然 ，TREC 的 主要 目标 不 只 是 系统 的 竞赛 ， 它 也 为 研究 社区 提供 
了 共享 的 数据 集 以 便 用 于 系统 实验 、 对 比 并 重 现 结果 。TREC 最 主要 的 评测 项 目 是 英文 文档 
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的 单 语 检索 任务 ， 所 以 TREC 公布 出 来 的 相关 数据 集合 只 包含 英文 的 主题 和 文档 。 

跨 语言 评测 论坛 (Crosslingual Evaluation Forum, CLEF) 由 欧洲 地 区 的 TREC 2. 3& 
点 关注 多 语言 信息 检索 。2000 一 2009 Æ, CLEF 的 特定 检索 track 中 使 用 了 不 同 的 数据 集 ， 
例如 欧洲 新 闻 语 料 和 拥有 14 种 语言 的 通讯 社 文档 ， 也 包含 用 英语 、 法 语 和 德语 表示 的 欧洲 
图 书馆 著录 条 目 和 波兰 新 闻 语 料 库 的 TEL 数据 集 。 所 有 数据 集 都 给 出 了 不 同 语言 的 主题 ， 
从 而 使 它们 适合 用 于 CLIR 和 MLIR 任务 。TEL 数据 集 也 包含 不 同 语言 字段 的 混合 文档 。 

IR 系统 的 Nil 测试 集 (NII Test Collection for IR Systems, NTCIR) 主要 举办 一 系列 
亚洲 语言 (包括 日 语 、 汉 语 和 韩语 等 ) 的 信息 检索 评测 会 议 。 已 经 发 布 了 包含 日 语 和 英语 
表示 的 科学 文摘 数据 集 以 及 用 中 文 、 韩 语 、 日 语 和 英语 表示 的 新 闻 文 章 (包括 不 同 语言 的 
主题 ) 的 数据 集 。 此外， 日 - 英 专 利 检 索 数 据 集 也 已 经 公开 。 

信息 检索 评测 论坛 (Forum for Information Retrieval Evaluation, FIRE) 专注 印度 语 
的 评测 。 它 已 经 发 布 了 由 和 孟加拉 语 、 英 语 、 印 第 语 和 马 拉 地 语 的 网 络 论 坛 和 相关 邮件 列表 
构建 而 来 的 语料库 。 主 题 使 用 的 语言 包括 孟加拉 语 、 英 语 、 印 第 语 、 马 拉 地 语 、 泰 米尔 
iB. 2 IB eee. 

2. 平行 语料库 

JRC-Acquis 是 一 个 从 欧盟 现行 法 CAcquis Communautaire)， 即 欧盟 成 员 国 使 用 的 欧 
盟 法 律 文献 中 提取 出 来 的 文档 集合 。 它 由 以 下 22 种 语言 的 平行 文本 组 成 : 保加利亚 语 、 
捷克 语 、 丹 麦 语 、 德 语 、 和 希腊 语 、 英 语 、 西 班 牙 语 、 爱 沙 尼 亚 语 、 耸 兰 语 、 法 语 、 匈 牙 利 
语 、 意 大 利 语 、 立 陶 死 语 、 拉 脱 维 亚 语 、 马 耳 他 语 、 和 荷兰 语 、 波 兰 语 、 葡 萄 牙 语 、 罗 马 
语 、 斯 洛 伐 克 语 、 斯 洛 文 尼 亚 语 和 瑞典 语 。 

http: //langtech. jrc. it/JRC-Acquis. htlm 

Multext Dataset 是 源 于 欧洲 共同 体 官 方 期 刊 COfficial Journal of European Communi- 
ty) 的 文档 集 ， 包 括 如 下 5 种 语言 : 英语 、 德 语 、 意 大 利 语 、 西 班 牙 语 和 法 语 。 

http://aune. lpl. univ-aixfr/projects/multext/ | 

Canadian Hansards (加 拿 大 英国 国会 议事 录 ) 包含 用 英语 和 法 语 表 示 的 第 36 届 加 拿 
KWA (Canadian Parliament) 的 官方 记录 (Hansards， 国会 议事 录 ) 的 对 齐 文本 块 A 
子 或 更 小 的 片段 )。 

http://www. isi. edu/natual-language/download/hansard/ 

Europari 《欧洲 议会 ) 是 一 个 平行 语 料 ， 包含 了 用 以 下 语言 表示 的 1996 一 2009 年 的 欧 
洲 议会 Ceuropean parliament) 文集 : 丹麦 语 、 德 语 、 和 希腊 语 、 英 语 、 西 班 牙 语 、 分 兰 语 、 
wif. BAKA. Hi. Ws Tie. 


http://www. statmt. org/europarl/ 


11.6.5 最 佳 实践 
我 们 已 经 明确 提出 ， 对 于 CLIR 和 MLIR 系统 的 理想 评估 方法 和 指标 依赖 于 系统 的 应 
用 场景 。 

如 果 将 系统 设计 为 以 研究 为 目的 ， 并 且 和 希望 在 一 个 特定 研究 问题 上 提高 目前 最 好 的 信 
息 检索 系统 ,那么 最 好 使 用 公开 的 数据 集 和 标准 的 评价 指标 以 确保 系统 与 现存 的 系统 具有 
可 比 性 。 许 多 时 候 ， 存 在 标准 答案 可 用 于 计算 评价 指标 。 

如 果 检 索 系 统 涉及 真实 用 户 应 用 程序 的 一 部 分 ， 那 么 数据 集 通常 就 该 根据 具体 的 任务 
进行 定制 。 为 了 评估 系统 好 坏 , 需要 定义 能 覆盖 用 户 预 期 信息 需求 的 所 有 主题 ， 并 且 要 确 
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定 相关 性 评估 以 创建 合适 的 标准 答案 。 如 前 所 述 ， 汇 集 技 术 可 以 有 助 于 减少 用 于 制定 相关 
性 评价 的 标准 答案 的 工作 量 。 

在 一 般 情况 下 ， 我 们 提倡 使 用 MAP 或 者 平均 排名 倒数 (mean reciprocal rank) 等 标 
准 评 佑 方法 来 评 佑 检索 系统 的 性 能 。 当 然 也 需要 针对 不 同 的 情形 制定 不 同 的 评价 标准 以 达 
到 预期 的 结果 ， 比 如 要 求 排名 徘 前 的 文档 具有 高 精确 率 这 种 情况 。 


11.7 工具 、 软 件 和 资源 


开发 一 个 完整 的 IR 系统 包含 许多 不 同 的 方面 ， 如 对 预 处 理 步骤 的 实现 ， 倒 排 索引 的 
文件 结构 和 有 效 的 检索 算法 。 因 此 从 零 开 始 建立 一 个 IR 系统 需要 巨大 的 努力 。 使 用 已 有 
的 工具 以 降低 构建 检索 系统 的 成 本 是 非常 必要 的 。 

在 一 个 具体 的 项 目 中 ， 可 能 是 这 样 的 情况 : 只 有 检索 模型 或 者 排序 函数 需要 改写 ， 而 
系统 其 他 组 件 则 使 用 现成 的 。 幸 运 的 是 ， 有 几 个 库 提 供 了 标准 IR 组 件 甚至 某 些 组 件 可 被 

下 面 我 们 挑选 了 一 些 支 持 开发 IR 系统 的 工具 和 软件 库 。 我 们 重点 关注 那些 广泛 使 用 并 有 
社区 支持 的 成 型 工具 。 最 受 欢迎 的 IR 框架 是 Lucene， 它 也 封装 了 许多 本 文 介绍 的 其 他 工具 。 

1. 预 处 理 

内 容 分 析 工 具 (Content Analysis Toolkit，Tika) 是 一 个 用 Java 实现 的 、 用 来 从 不 同 
文件 类 型 (例如 PDF 或 者 DOC) 的 文档 中 提取 内 容 的 工具 。 它 也 支持 文件 类 型 的 检测 。 
Tika HF Lucene M H. 

http: //lucene. apache. org/tika/ 

雪 球 词 干 分 析 器 (Snowball Stemmer) 是 几 种 欧洲 语言 的 词 于 分 析 器 。 它 运行 得 非常 
快 并 且 支 持 停 用 词 去 除 。 其 所 支持 语言 的 停 用 词 列表 在 项 目 网 站 上 可 以 下 载 。 

http://snowball. tartarus. org 

HTML 分 析 器 (HTML Parser) 是 用 于 解析 HTML 文件 的 工具 。 它 能 够 忽略 网 页 中 
的 标签 以 及 与 语义 内 容 无 关 的 部 分 ， 从 而 提取 出 文本 内 容 。 

http://htmlparser. sourceforge. net/ 

BananaSplit 是 一 个 基于 词典 资源 的 德语 复合 词 拆 分 工具 Ccompound splitter), 

http://www. drni. de/niels/s9y/pages/bananasplit. html 

翻译 http://www. statmt. org 门户 网 站 是 一 个 获取 统计 机 器 翻译 系统 信息 的 极 佳人 
口 。 它 提供 了 软件 和 用 于 训练 翻译 模型 的 数据 集 。 

谷歌 翻译 服务 SS ， 作 为 一 个 商业 SMT 系统 的 例子 ， 提 供 、 支 持 多 种 语言 间 翻 译 的 
API。 人 然而， 因为 机 器 翻译 在 信息 检索 框架 中 只 是 预 处 理 的 一 部 分 并 且 一 般 情况 下 没有 深 
度 集 成 到 检索 系统 中 ， 所 以 任何 商业 翻译 系统 都 可 以 被 嵌 人 到 CLIR 或 者 MLIR 系统 。 

2. IR 框架 

Lucene 是 用 Java 实现 的 、 广 泛 应 用 的 IR 系统 。 它 是 遵循 Apache 许可 证 的 开源 软件 ， 
因此 能 够 被 用 在 商业 应 用 和 开源 项 目 中 。Lucene 已 经 是 成 熟 系统 并 上 且 被 应 用 到 各 种 应 用 
中 。 它 的 主要 特征 是 可 伸缩 性 和 可 靠 性 ， 这 是 以 降低 灵活 性 为 代价 的 ， 使 得 更 改 其 程序 组 
件 变 得 困难 。 举 例 来 说 ， 在 Lucene 中 索引 的 建立 依赖 于 所 选择 的 检索 模型 ， 所 以 在 不 重 
建 索 引 的 情况 下 检索 模型 是 不 能 更 改 的 。 


©  http;//translate. google. com, 
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http: //lucene. apache. org 

Terrier 和 Lemur 都 是 用 于 研究 目的 的 检索 工具 。Terrier (由 Java XM) MM Lemur 
(由 C 十 十 实现 ) 都 是 灵活 的 IR 框架 ， 很 容易 拓展 和 修改 。 因 为 考虑 的 侧重 点 不 同 ， 所 以 
它们 在 稳定 性 和 查询 效果 上 不 能 和 Lucene 相 比 。 

http://terrier. org 

http://www. lemurproject. org 

3. 评价 系统 

trec eval (WF TREC) 是 一 个 用 于 依据 标准 答案 为 给 定 文 档 排序 计算 各 种 评价 指标 的 
工具 。 它 的 输入 为 有 着 简单 语法 的 纯 文本 文件 。 按 照 TREC 的 格式 组 织 输出 文件 使 trec_eval 
能 用 于 任何 IR 系统 。 前 面 介绍 的 IR 框架 也 支持 TREC 格式 的 输出 。 


http;//trec. nist. gov/trec  eval/ 
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本 章 我 们 对 实现 可 用 于 访问 不 同 语言 文档 的 IR 系统 的 方法 进行 了 综述 。 我 们 区 分 了 
两 类 问题 ， 跨 语言 和 多 语言 信息 检索 。CLIR 用 于 在 给 定 某 特定 语言 话题 的 基础 上 检索 出 
另外 一 种 语言 的 文档 ， 而 MLIR 则 可 应 用 于 多 语言 文档 集 和 不 同 语言 的 话题 。 

根据 所 文 持 的 语言 不 同 ， 我 们 分 别 讨论 了 所 需 的 预 处 理 方法 〈 词 元 化 ， 词 干 化 等 ) 。 
我 们 还 进一步 讨论 了 在 开发 CLIR 和 MLIR 系统 时 能 重用 的 信息 检索 基本 方法 。 我 们 还 特 
别 证 明了 大 部 分 信息 检索 的 标准 文档 模型 都 可 以 在 CLIR 和 MLIR 中 重用 。 我 们 讨论 了 
CLIR 和 MLIR 的 两 种 主要 方法 : 基于 翻译 的 方法 和 基于 中 间 语 言 表 示 的 方法 。 我 们 对 此 
还 讨论 了 不 同 的 机 器 翻译 技术 以 及 它们 应 如 何 应 用 于 CLIR 和 MLIR 系统 中 。 统 计 机 器 翻 
译 的 发 展 使 我 们 可 以 利用 它 把 查询 串 实 时 翻译 成 多 种 其 他 语言 ， 从 而 把 CLIR 和 MLIR ££ 
换 为 一 个 标准 单 语 言 检索 任务 。 我 们 还 讨论 了 识别 文档 语言 的 方法 ， 如 果 需 要 建立 和 维护 
多 种 特定 语言 的 索引 结构 ， 这 种 识别 就 是 非常 重要 的 一 步 。 我 们 还 简要 讨论 了 将 不 同 特定 
语言 索引 下 获取 的 检索 结果 分 值 进行 聚合 以 得 到 全 局 分 值 和 排序 的 问题 。 此 问题 在 多 语言 
检索 中 是 一 个 重要 的 问题 。 

因为 系统 评测 在 信息 检索 领域 也 是 至 关 重 要 的 ， 所 以 我 们 介绍 了 IR 系统 是 怎样 进行 
评测 的 。 我 们 特别 介绍 了 人 人工 和 自动 的 相关 性 判定 方式 ， 并 介绍 了 标准 的 IR 系统 评测 指 
标 。 最 后 我 们 概述 介绍 了 关于 标准 数据 集 、 评 测 竞赛 、 软 件 库 以 及 一 般 资 源 ， 
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12.1 概述 


日 动 文摘 已 经 成 为 计算 语言 学 中 一 个 十 分 活跃 的 领域 ,研究 者 们 从 多 种 角度 研究 了 这 
个 问题 。 过 去 的 研究 主要 关注 单 语 文本 ,但 最 近 几 年 里 ， 多 语 自 动 文摘 吸引 了 不 少 研究 兴 
趣 ， 多 语文 本 也 被 用 在 了 文摘 系统 中 。 

自动 文摘 可 以 划分 为 单 文档 和 多 文档 两 种 。 摘 要 可 能 是 特定 查询 驱动 的 ， 也 可 能 是 为 了 
提供 文档 〈 或 文档 集 ) 的 主要 内 容 。 根 据 不 同 的 目的 就 有 不 同 的 摘要 。 例 如 ， 信 息 型 (in- 
formative) 摘要 是 输入 文本 中 重要 事实 的 一 个 压缩 版 本 (如 期 刊 论文 的 摘要 )。 摘 要 也 可 能 仅 
指示 (indicative) 了 输入 文本 中 的 主题 而 未 提供 更 多 的 细节 (如 科技 论文 的 关键 词 )。 男 一 种 
类 型 的 摘要 以 评论 的 形式 出 现 ， 这 样 的 一 个 评论 (evaluative) 摘要 一 般 会 通过 比较 和 输入 文 
档 相 似 的 文档 来 给 出 观点 。 详 细 摘 要 〈elaborative) 则 会 提供 一 个 大 型 文档 或 者 是 多 个 相关 
文档 中 比较 多 的 细节 ， 这 样 能 帮助 这 类 文档 或 相关 文档 的 导航 ， 例 如 维基 百科 [1]. 

更 基本 地 ， 我 们 可 以 通过 自动 文摘 不 同 的 实现 方式 将 文摘 分 为 文档 的 摘录 (extract) 
或 者 文档 的 摘要 (abstract)。 摘 录 通 过 提取 文档 中 最 重要 的 部 分 ， 可 能 也 会 包含 少量 次 要 
的 部 分 来 进行 文摘 。 摘 要 则 描述 了 对 文档 内 容 的 总 结 ， 未 必 直 接 包 含 文档 内 容 的 原 句 。 大 
多 现今 的 自动 文摘 系统 是 通过 摘录 来 实现 的 ， 但 是 也 有 一 部 分 系统 试图 产生 摘要 [2] 或 
者 通过 句子 压缩 以 保留 一 个 句子 〈 或 更 多 内 容 ) 中 的 重要 部 分 来 做 文摘 L3]. 

最 近 的 一 些 研究 细节 包括 对 书籍 目录 信息 的 摘要 、 更 新 式 文摘 ( 即 只 报告 发 展 中 事件 
的 最 新 变化 ) 或 导 引 式 文摘 ， 目 标 是 根据 文档 的 类 型 从 源 文档 中 提取 语义 信息 〈 例 如 事故 
或 自然 灾害 )。 

多 语 自 动 文摘 继承 了 单 语 自动 文摘 的 特征 和 挑战 ， 并 增加 了 一 个 维度 。 按 粗略 的 定 
义 ， 所 谓 多 语 自动 文摘 就 是 涉及 超过 一 种 语言 的 自动 文本 文摘 。 

具体 说 来 ， 文摘 系统 能 对 一 种 源 语言 (例如 阿拉 伯 语 ) 进行 处 理 ， 并 用 目标 语言 ( 例 
如 英语 ) 来 呈现 摘要 结果 。 我 们 把 这 种 特别 的 多 语文 摘 叫 做 跨 语 际 文摘 (translingual 
summarization) , 

更 复杂 的 文摘 叫做 跨 语 言 (crosslinguaD 文摘 ， 这 种 文摘 任务 的 源 语言 为 多 种 语言 ， 
摘要 结果 用 一 种 (或 多 种 ) 目标 语言 呈现 。 

跨 语 言 文摘 是 一 种 更 具有 挑战 性 的 任务 ， 因 为 它 要 整合 来 目 不 同 语言 的 多 个 源 文 档 。 
所 有 的 多 语文 摘 ， 不 管 是 否 涉 及 两 种 或 多 种 更 多 源 语言 或 目标 语言 都 面临 许多 问题 。 

第 一 个 问题 就 是 跨 文 档 共 指 消 解 。 命 名 实体 在 不 同 的 语言 中 常 被 翻译 成 不 同 的 结果 。 
例如 ，Al-Qaida、al-Qa'ida、el-Qaida、al Qaeda 是 德语 词 El Kaida, 3X Xx Al-Qaeda 的 不 同 
翻译 。 文 摘 系统 必须 对 这 些 变 体 进行 规范 化 并 把 它们 映射 到 同一 个 实体 。 

相似 地 ， 多 语种 指 代 消 解 问 题 也 需要 进行 处 理 。 语 言 对 数 和 性 一 致 性 的 编码 是 不 同 
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的 ， 英 语 就 没有 语法 性 的 概念 ， 但 是 其 他 印 欧 语 系 却 不 一 样 。 例 如 ， 其 他 印 欧 语言 会 用 具 
有 不 同性 的 代词 对 不 同 的 先行 词 进行 指 代 〈 例 如 ， 法 语 ，la lune (FEM)-elle; Wif: der 
Mond (MASC)-er) 。 

多 语文 摘 系 统 可 能 会 遇 到 的 另 一 个 问题 是 ， 不 同 语言 通常 使 用 不 同 的 语 篇 结构 。 不 同 
语言 的 篇 章 关 系 也 许 也 是 不 同 的 ， 因 此 ， 用 目标 语言 生成 连贯 的 摘要 也 是 困难 的 。 

一 个 更 复杂 的 问题 是 如 何 对 语言 相关 的 概念 进行 摘要 。 例 如 ， 在 不 同 语言 中 要 对 法 律 
的 概念 进行 摘要 ， 是 十 分 困难 的 ， 甚 至 是 不 太 可 能 的 。 

上 述 许多 问题 在 单 语 自动 文摘 中 已 经 存在 〈 例 如 指 代 消解 )， 但 是 由 于 不 同 的 语言 有 不 
同 的 指 代 、 篇 章 结 构 、 概 念 ， 导 致 这 些 问题 在 多 语文 摘 里 更 加 严重 。 多 语 自动 文摘 系统 的 质 
量 也 因此 取决 于 机 屁 翻 译 系统 的 质量 ,目前 还 远 不 能 达到 完美 的 水 平 。 在 机 器 翻译 中 最 小 错 
误 率 策略 用 来 最 小 化 前 述 这 些 问题 的 影响 。 自 动 文摘 系统 也 可 以 减 小 这 些 问 题 的 影响 ， 例 
如 ， 包 含 基于 容易 提取 特征 Ceasy-to-extracO 的 知识 贫乏 (knowledge-poor) 方法 来 处 理 指 
代 消 解 问题 [4] 或 基于 图 的 方法 来 根据 基于 词 的 相似 度 指标 对 相似 的 句子 进行 聚 类 [5]. 

历史 。 最早 的 自动 文摘 系统 之 一 是 1998 年 Ed Hovy 和 Chin-Yew [6」 开 发 的 SUM- 
MARIST， 它 能 生成 不 止 英 语 一 种 语言 的 摘要 。 该 系统 可 以 从 英语 、 西 班 牙 语 、 法 语 、 德 
语 以 及 印度 尼 西 亚 语 报纸 中 生成 摘录 。 

2001 年 ，SummBank 第 一 个 面向 研究 的 基于 跨 语 言 文 摘 框 架 的 系统 被 开发 出 来 。 
资源 来 自 Johns Hopkins Research Workshop [7]. B&F., Xx 360 个 文档 和 40 FAL 
AH AS. 

2002 年 ， 欧 盟 资 助 的 项 目 MLIS-MUSI (Multilingual Summarization for the Internet) 
可 以 对 英语 和 意大利 语 科技 文章 进行 多 语 自 动 文摘 [8]. 

几 年 以 后 ， 哥 伦比 亚 大 学 开发 了 NewsBlaster 自动 文摘 系统 ， 它 能 使 用 户 用 不 同 的 语 
言 浏览 互联 网 上 多 个 网 站 的 新 闻 ISI. | 

2005 年 ， 语 言 资 源 联盟 (Linguistics Data Consortium, LDC) 的 多 语 上 月 动 文 摘 评 测 
(Multilingual Summarization Evaluation, MSE) 项 目 进一步 促进 了 研究 鱼 。 该 评测 使 用 
了 哥伦比亚 大 学 的 NewBlaster 主题 聚 类 系统 所 生成 的 25 个 新 闻 话 题 。 文 摘 任务 是 获取 英 
语 和 阿拉 伯 语 的 新 闻 人 信息。 但 是 ， 标 注 者 通过 英文 新 闻 文 档 所 生成 的 100 词 摘 要 并 未 直接 
来 自 阿拉 伯 语 源 文档 ， 而 仅 来 自 它们 的 英文 翻译 。 

多 语文 摘 研究 领域 的 另 一 个 里 程 碑 事 件 是 2006 年 由 Horacio Saggion 发 布 的 基于 
GATE 的 摘要 系统 SUMMA [10，11]。 利 用 开放 架构 的 GATE 系统 [12]， 该 系统 直接 
把 一 些 语言 工具 (例如 分 词 程序 、 分 名 程序) 集成 一 体 化 并 可 支持 拉脱维亚 语 、 瑞 典 语 和 

=w, 

最 近 的 论文 主要 研究 多 语言 文摘 的 特定 问题 或 跨 语 际 和 跨 语 言 文 摘 系统 的 方法 ， 包 括 
Mani, Yeh 和 Condon 提出 的 通过 不 同 语言 寻找 名 字 的 系统 ， 该 系统 把 英语 的 名 字 匹 配 到 
中 文 ，F 值 可 达到 97.0 [14], Mille 和 Wanner [15] 则 描述 了 另 一 个 需要 处 理 多 语言 
摘要 问题 并 提出 了 一 个 处 理 不 同 语言 专利 的 系统 。 





该 系统 的 早期 版 本 还 能 生成 阿拉 伯 语 和 日 请 文摘 。 

http://www. summarization, com/summbank/ . 

http; / /newsblaster, cs. columbia. edu 网 站 对 来 自 英 语 新 闻 网 站 的 新 闻 和 图 片 进行 了 摘要 。 
http: //projects. Ide. upenn. edu/ MSE/, 

这 些 语言 资源 由 Clarity 项 目 开发 [13]. 


& & nad 
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最 近 几 年 ， 目 动 文摘 系统 生成 的 摘要 不 仅 是 英语 摘要 。Leuski 等 人 [16] 提出 的 系统 
能 把 英语 新 闻 头 条 翻译 成 北 印 度 语 。Orasan 和 Chiorean [17] 则 使 用 最 大 边缘 相关 
(Maximal Marginal Relevance, MMR) 方法 对 罗马 利 亚 新 闻 进 行 摘 要 。 


12.2 自动 文摘 方法 


12.2.1" RFR 


目 动 文摘 是 为 了 满足 用 户 的 信息 需求 ， 通 过 抽取 并 修改 源 文档 的 材料 ， 创 造 一 个 更 简 
洁 的 反映 源 文档 内 容 的 短文 。 如 果 该 短文 是 一 字 不 差 地 提取 (或 仅 有 最 小 化 的 修改 )， 这 
样 的 文摘 就 叫做 摘录 ; 如 果 该 短文 是 在 摘要 层次 上 获取 内 容 的 主旨 ， 这 样 的 文摘 就 叫做 摘 
要 。 现 今 的 大 多 目 动 文摘 系统 是 摘录 而 非 摘 要 。 

大 量 的 研究 关注 如 何 解 决 用 户 的 需求 ， 这 导致 了 不 同类 型 的 文摘 任务 ， 例 如 ， 多 文档 
目 动 文摘 和 基于 查询 的 自动 文摘 。 多 文档 自动 文摘 的 摘要 来 自 涉及 相同 主题 的 多 文档 ， 基 
于 查询 的 目 动 文摘 是 根据 用 户 的 查询 串 来 进行 摘要 而 不 提供 通用 目的 的 摘要 ， 基 于 查询 的 
自动 文摘 既 可 以 基于 单 文 档 也 可 以 基于 多 文档 。 

一 般 而 言 ， 每 一 个 自动 文摘 系统 都 可 分 为 三 个 步骤 : 

分 析 (analysis). ”分 析 源 文本 ， 生 成 一 些 内 部 表示 。 该 表示 可 以 是 一 个 特征 回 量 的 
集合 (例如 句子 中 最 和 常见 词 的 计数 )， 也 可 以 是 描述 其 内 容 的 逻辑 表示 。 对 于 一 个 跨 语 际 
的 系统 ， 这 部 分 特别 重要 ， 因 为 这 种 表示 必须 对 不 同 语言 有 一 定 的 兼容 性 。 

转换 (transformation) 对 这 种 内 部 表示 进行 修 藤 和 压缩 (例如 ， 根据 某 个 分 值 函 
数 将 句子 进行 排序 )。 同 样 ， 依 据 内 部 表示 选择 的 方式 不 同 ， 该 转换 可 能 是 语言 相关 的 。 

实现 (realization) 文摘 的 目的 是 生成 一 个 比 源 文档 更 短 的 文本 。 一 种 简易 的 方法 
是 根据 得 分 函数 输出 m 个 最 高 得 分 的 句子 ,但 是 要 生成 一 个 连贯 的 摘要 ， 其 他 的 操作 必 不 
可 少 (例如 共 指 消解 )。 如 果 多 语 自 动 文摘 前 期 没有 处 理 多 语 问 题 ， 则 为 了 使 文摘 能 用 目 
标语 言 表示 ， 它 必须 采用 机 需 翻 译 部 件 。 或 者 ， 直 接 从 概要 语义 表示 生成 目标 语言 文摘 。 

自动 文摘 的 研究 最 早 能 追溯 到 20 世纪 50 年 代 末 Luhn 的 工作 [21]. Luhn 调查 了 和 名 
子 中 常见 术语 的 影响 ， 并 提出 了 一 个 用 于 计算 文档 中 每 个 句子 得 分 的 得 分 图 数 。 

其 他 早期 的 自动 文摘 系统 主要 都 是 基于 表面 特征 来 提取 文本 中 的 重要 句子 。 一 般 来 说 ， 
文档 开始 (或 者 结尾 ) 的 句子 经 常 是 十 分 重要 的 [22]。 因 此 ， 在 文档 中 甸子 的 位 置 常常 是 
决定 句子 重要 性 的 一 个 很 好 的 特征 ， 因 为 作者 喜欢 把 重要 的 句子 放 在 文章 中 显著 的 位 置 。 

许多 早期 的 方法 ， 也 包括 一 些 近 期 的 做 法 ， 经 常用 下 面 的 特征 来 进行 句子 的 提取 
[21, 22, 23]. 

。 诸如 in summary (AZ) 这 样 的 指示 性 短语 。 

。 术语 的 分 布 。 

。 与 标题 重合 的 词 。 

。 句子 在 文本 、 段 落 中 的 位 置 等 。 

这 些 通用 特征 也 可 以 很 容易 地 应 用 到 多 语 自动 文摘 上 。 术 语 的 分 布 和 位 置 多 半 是 语言 
无 关 的 特征 ， 其 中 位 置信 息 是 体裁 相关 的 。 例 如 ， 一 般 在 新 闻 里 重要 的 句子 都 在 篇 省， 而 
法 律 文本 一 般 都 在 篇 尾 进行 信息 总 结 。 

通过 基于 特征 提取 的 摘要 方法 生成 的 摘要 并 不 总 是 连贯 的 。 为 了 处 理 这 一 问题 ， 目 动 
文摘 系统 会 结合 可 预测 连贯 性 的 语 篇 理论 。 由 于 语 篇 常常 可 看 作 二 个 图 结构 ， 所 以 下 一 小 
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12.2.2 基于 图 的 方法 


这 一 节 讨 论 基 于 图 的 文本 模型 以 及 这 种 表示 方法 如 何 提高 文本 自动 文摘 的 质量 。 一 方 
面 ， 诸 如 修辞 结构 原理 (Rhetorical Structure Theory, RST) [24] 的 语 篇 理论 通过 树 结 
构 对 文本 连贯 进行 了 建 模 ; 另 一 方面 ,诸如 PageRank [25] 的 基于 图 的 排序 方法 已 被 证 
明 有 助 于 根据 句子 的 重要 性 计算 句子 的 得 分 。 
前 一 种 方法 需要 各 种 语言 的 深度 语言 知识 ， 基 于 图 的 方法 则 可 以 将 文本 转换 为 图 表 
示 ， 图 中 的 节点 是 文本 中 的 句子 ， 节 点 的 连 线 是 句子 间 相 似 度 的 权重 。 本 节 的 第 二 部 分 主 
要 关注 使 用 类 似 PagePank 这 样 的 计 分 机 制 进行 摘要 提取 的 方法 。 
1. 连贯 与 衔接 
从 源 文档 自动 摘录 形成 的 自动 文摘 在 语言 学 质量 上 往往 是 比较 糟糕 的 。 因 为 从 文本 中 
摘录 出 句子 形成 的 文摘 ， 句 子 之 间 的 指 代 关系 (比如 代词 和 篇 章 结构 (比如 诸如 there- 
fore 的 语 篇 标记 )〉 都 会 被 破坏 ， 这 使 得 文摘 不 连贯 ， 很 难 阅 读 。 
提高 语言 学 质量 的 方法 有 好 几 和 种。 我 们 先 讨论 两 个 重要 的 概念 。 第 一 ， 衔 接 (cohe- 
sion)， 它 是 句子 之 间 的 语义 关系 L26]j。 典 型 的 衔接 是 通过 句子 之 间 的 指 代 关系 (包括 前 
指 和 后 指 ) 来 表示 的 。 其 他 支持 衔接 的 语言 学 现象 包括 替换 、 省 略 、 词 语 搭配 。 
John went to the bank. He wanted to swim in the river. 
这 两 句 话 的 联系 是 十 分 紧密 的 ， 因 为 我 们 能 通过 指 代 关系 知道 he PEE John, th E38 
过 词语 搭配 ， 从 swim 和 river 两 个 词 的 词汇 搭配 准确 地 推测 出 bank( 即 河岸 ) 的 意思 。 
与 衔接 概念 相关 但 常 限于 句子 间 联 系 的 概念 就 是 连贯 〈coherence) 。 连 贯 常 用 在 语 篇 概 
念 建 模 中 ， 表 示 整 个 文本 中 句子 是 如 何 联系 的 。 自 动 文 摘 需 要 是 连贯 的 ， 这 样 有 助 于 用 户 的 
理解 。 因 此 ， 摘 录 的 句子 如 何 排序 ， 如 何 修改 来 提高 文摘 的 可 读 性 是 一 个 很 重要 的 问题 。 
为 了 最 大 化 文摘 的 连贯 性 ， 目 前 已 经 提出 了 几 种 方法 [27，28，29]。 它 们 几乎 都 是 
建立 在 类 似 RST 的 语 篇 理论 上 [24j。RST 的 主要 假设 是 基于 通过 修辞 关系 来 联系 的 文本 
段 的 观察 。 段 间 的 修辞 关系 可 以 经 由 语 篇 标记 Aan., “AA” 明确 标记 出 来 ， 也 可 以 根 
据 上 下 文 推导 出 来 。 修 辞 关系 能 表示 事件 的 因果 关系 、 阐 述 某 情景 ， 或 者 把 叙述 移 前 。 
Marcu 和 Echihabi [30] 提出 了 一 个 基于 RST 的 修辞 分 析 器 并 用 于 上 自动 文摘 。RST 
的 一 个 核心 思想 就 是 语 篇 树 。 树 的 节点 可 以 合并 文本 段 ， 有 下 面 两 种 类 型 的 节点 : 
。*。“ 核 与 卫 ”( 主 从 关系 ):; 核 包 含 比较 重要 的 信息 ， 卫 提取 的 信息 支撑 核 。 例 如 ， 阅 
述 关 系 (ELABORTION) 就 是 主 从 型 的 核 卫 关系 ， 比 如 : 
Lactose is milk sugar: the enzyme lactase breaks it down. 
。“ 核 心 与 核 ”( 并 列 关系 ) : 另 一 方面 ， 多 核 关 系 CONTRAST 在 两 个 同等 重要 的 事 
实 间 形成 对 比 ， 比 如 : 
For want of lactose, most adults cannot digest milk. In populations that drink 
milk, the adults have more lactase, perhaps through natural selection. 
图 12-1 就 是 下 面 有 关 火 星 探测 例文 的 RST 语 篇 树 ， 由 Marcu [31] 分 析 得 到 : 
| With its distant orbit! | [—50 percent farther from the sun than Eath—? | [and slim 
atmospheric blanket,? | [Mars experiences frigid weather conditions. * | [Surface tempera- 
tures typically average about 60 degrees Celsius ( 76 degrees Fahrenheit ) at the equator? | 
[and can dip to 123 degrees C near the poles. 6 | [Only the midday sun at tropical latitudes 
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is warm enough to thaw ice on occasion,’ | [ but any liquid water formed in this way would 
evaporate almost instantly? | [ because of the low atmospheric pressure. ? | [ Although the 
atmosphere holds a small amount of water, ° ] | and water-ice clouds sometimes develop, !! | 
[most Martian weather involves blowing dust or carbon dioxide. !? | [ Each winter. for ex- 
ample, a blizzard of frozen carbon dioxide rages over one pole,!* | | and a few meters of this 
dry-ice snow accumulate! | Las previously frozen carbon dioxide evaporates from the oppo- 
site polar cap. !? | | Yet even on the summer pole,!® | [ where the sun remains in the sky all 


day long,!’ | [temperatures never warm enough to melt frozen water. 18 | 





图 12-1 火星 探测 例文 的 RST 结构 CRM: Marcu [31D 


这 个 文本 段 用 方 括号 分 成 子 句 。 例 如 ， 子 句 12 CB) most Martian weather involves 
blowing dust or carbon dioxide. ) 描述 了 子 名 4 (Bl) Mars experiences frigid weather condi- 
tions.) 的 一 个 例子 。 这 里 子 句 4 是 核 ， 子 句 12 是 卫 。“ 核 与 卫 ” 节 点 定义 为 ， 如 果 卫 市 
点 从 语 篇 树 上 删除 ， 整 个 语 篇 仍然 保持 连贯 性 。 这 个 特征 也 可 以 用 于 自动 文摘 ， 一 棵 语 篇 
树 可 以 通过 前 枝 使 该 文本 生成 一 个 更 简明 的 短文 [31, 28. 29]. KÆR W B5 4 XC n] We 
成 下 面 的 文摘 : 

Mars experiences frigid weather conditions. Surface temperatures typically average 
about 60 degrees Celsius (76 degrees Fahrenheit) at the equator and can dip to 123 degrees 
C near the poles. Only the midday sun at tropical latitudes is warm enough to thaw ice on 
occasion, but any liquid water formed in this way would evaporate almost instantly. 

Most Martian weather involves blowing dust or carbon dioxide. Yet even on the sum- 
mer pole, temperatures never warm enough to melt frozen water. 

即使 这 些 基于 语 篇 理论 〈 例 如 RST) 的 方法 能 保持 文摘 的 连贯 性 ， 但 是 它们 要 移植 到 
其 他 语言 还 是 比较 困难 的 [31] [32]9, 


© Marcu 和 Echihabi [30] 所 建议 的 通过 语 篇 标记 学 习 语 篇 分 析 器 的 做 法 已 由 Sporleder 和 Lascaides [33」 证 明 
是 很 困难 的 。 
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Xi [31]. Hi& [28] 和 德语 [29] 语 篇 分 析 器 已 被 用 于 自动 文摘 系统 中 了 ， 但 其 
他 很 多 语言 并 没有 开发 出 相应 的 语 篇 分 析 器 。 

其 至 翻译 语 篇 标记 也 是 十 分 困难 的 事 ， 因 为 它们 含有 很 多 不 同 的 语义 。 例 如 ， 英 语 的 
标记 since， 可 以 表 原 因 ， 也 可 以 是 纯粹 的 时 间 含 义 。 要 正确 地 将 它 翻 译 成 德语 ， 我 们 必 
须 在 weil (原因 ) 或 者 seit (时 间 ) 之 间 做 出 选择 。 

尽管 如 此 ， 研究 者 们 必须 考虑 在 不 同 的 源 语言 间 连 贯 性 是 如 何 保持 的 。 这 个 领域 很 可 
能 会 成 为 一 个 可 探索 的 新 领域 。 : 

2. 文本 的 图 表示 法 

TextRank 也 是 利用 图 表示 法 的 自动 文摘 方法 [19]. TextRank 和 PageRank 相似 ， 
但 它 依据 文本 关系 而 不 是 依据 文档 链接 来 生成 图 。 图 中 的 节点 表示 文本 的 句子 ， 节 点 之 
间 的 边 是 两 个 市 点 相似 度 权 重 。 和 PageRank 类 似 ， 高 度 连接 的 节点 将 被 其 他 句子 “ 推 
举 ” 出 来 ， 从 而 获得 更 靠 前 的 排序 。 

形式 上 上， 文本 定义 成 一 个 有 向 图 G=(V,E) VEDAS, WE ECVXV 表示 句子 
之 间 的 联系 。 则 PageRank 分 值 将 可 基于 节点 人 度 in(V;) 和 出 度 oxt(V;) 进行 计算 。 具 
体 计 算 公 式 如 下 ， 其 中 d 是 一 个 抑制 因子 ， 表 示 跳 到 一 个 新 页 面 的 概率 9 。 


| 1 
ed 7 ME EIC d ——_ SV; (12. 1) 
A p | out (V; ) | j2 


对 于 TextRank, AMAA MICHA. Ag in(Vi) 二 out(Vi)。 边 的 权重 wa 计算 句子 
相似 度 得 到 。 相 似 度 计算 方法 由 Mihalcea 和 Tarau [19] 给 出 ， 计 算 两 个 句子 中 同 现 词 的 
个 数 并 通过 句子 长 度 归 一 化 。 

Similarity (S; Sj) = 

加 权 的 PagePank 得 分 计算 公式 如 下 : 

Wu (we NN et (12. 3) 
V;€ in(V) Div, cau, Wi 

K 12-1 是 一 个 新 闻 报 纸 文章 的 样 例 。 根 据 公 式 (12.2) 可 以 计算 出 所 有 甸子 间 的 相 
似 度 得 分 ， 并 建立 出 图 12-2 所 示 的 样本 图 ， 图 中 包含 了 得 分 及 权重 。 

图 12-2 中 的 每 个 句子 都 可 以 计算 PagePank 得 分 ， 得 分 高 的 句子 有 很 多 高 权重 的 边 指 问 它 。 

TextRank 用 2002 年 文档 理解 会 议 (Document Understanding Conference, DUC) 的 
数据 进行 评测 ， 结 果 表 明 该 系统 与 该 评测 中 最 好 的 系统 相当 。 考 虑 到 此 方法 是 无 监督 的 并 


— 
一 一 


且 不 需要 任何 语言 相关 的 工具 (除了 相似 度 策略 )， 它 也 可 以 用 于 处 理 其 他 语言 。 
表 12-1 用 作 TextRank 输入 的 一 个 新 闻 文 章 样 本 ， 输 出 图 为 图 12-2 


: BC-Hurricane Gilbert, 0348 

: BC-Hurricane Gilbert, 0-11 399 

: Hurricane Gibert heads toward Dominican Coast 
: By Ruddy Gonzalez 


: Associated Press Writer 


log(| S; D + logC| S; |) (12.2) 


. Santo Domingo, Dominican Republic ( AP) 
: Hurricane Gilbert Swept toward the Dominican Republic Sunday, and the Civil Defense alerted its heavily popula- 


«c on O0! 05 > 


ted south coast to prepare for high winds, heavy rains, and high seas. 


O Be d 通常 设置 为 0. 85。 


10; 
: “There is no need for alarm,” Civil Defense Director Eugenio Cabral said in a television alert shortly after midnight 
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( 续 ) 


The Storm was approaching from the southeast with sustained winds of 75 mph gusting to 92mph. 


Saturday. 


: Cabral said residents of the province of Barahona should closely follow Gilbert's movement. 
: An estimated 100, 000 people live in the province. include 70, 000 in the city of Barahona, about 125 miles west 


of Santo Domingo. 


: Tropical storm Gilbert formed in the eastern Carribean and strengthened into a hurricane Saturday night. 
: The National Hurricane Center in Miami reported its position at 2 a. m. Sunday at latitude 16. 1 north. longitude 


67. 5 west, about 140 miles shouth of Ponce. Puerto Rico, and 200 miles southeast of Santo Domingo. 


: The National Weather Service in San Juan, Puerto Rico, said Gilbert was moving westward at 15 mph with a 


"broad area of cloudiness and heavy weather" rotating around the center of the storm. 


: The weather service issued a flash flood watch for Puerto Rico and the Virgin Islands until at least 6 p. m. Sunday. 
: Strong winds associated with Gilbert brought coastal flooding, strong southeast winds, and waves up to 12 feet to 


Puerto Rico's south coast. 


: There were no reports on casualties. 
; San Juan, on the north coast. had heavy rains and gusts Saturday, but they subsided during the night. 
: On Saturday, Hurricane Florence was downgraded to a tropical storm. and its remnants pushed inland from the 


U. S. Gulf Coast. 


: Residents returned home, happy to find little damage from 90 mph winds and sheets of rain. 
: Florence, the sixth named storm of the 1988 Atlantic storm season, was the second hurricane. 
: The first. Debby, reached minimal hurricane strength briefly before hitting the Mexican coast last month. 


[0.84] 20 


[0.15] 19 ; 3 9 [1.83] 
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图 12-2 通过 文本 生成 的 一 个 样本 图 (来 源 : Mihalcea 和 Tarau [19]) 


另 一 个 名 为 LexPageRank 的 类 似 方法 ， 由 Erkan 和 Radev[5] 提出。LexPageRank 
也 利用 了 PageRank， 但 是 其 相似 度 分 数 通过 余弦 相似 度 计算 而 来 ， 并 引入 了 权重 国 值 。 


他 们 将 LexPageRank 用 于 MEAD 自动 文摘 系统 ， 更 详细 的 描述 见 12. 2.4 节 。 
12.2.3 学 习 如 何 做 摘要 


Kupiec, Pedersen 和 Chen 的 工作 [23」 开 始 引 入 训练 分 类 器 以 决定 哪些 句子 应 该 被 
包含 在 摘要 中 的 思路 。 过 去 的 十 多 年 中 ,许多 方法 都 把 这 个 问题 看 作 分 类 问题 ， 它 们 基本 


都 有 表 12-1 所 列 的 如 下 部 件 [34. 35]: 


405 


406 


407 
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1) —4- 6, - 3 i fe - d E HEHE, — Jg E AMABS) 必须 用 于 将 摘要 
的 句子 和 来 自 原始 文本 的 句子 匹配 起 来 以 进行 摘要 。 

2) 一 个 用 于 为 每 个 句子 生成 特征 向 量 的 特征 抽取 器 。 特 征 可 以 是 句子 的 长 度 、 文 本 
或 段落 中 的 位 置 、 标 题 或 篇 首 句 子 中 词 的 重合 或 者 是 句子 中 的 词 在 文章 中 的 词 频 。 

3) 一 个 用 于 对 句子 进行 分 类 的 机 器 学 习 算 法 。 分 类 器 可 以 是 一 个 二 元 分 类 器 、 一 
多 元 分 类 器 或 者 是 一 个 回归 模型 ， 其 中 每 个 句子 会 得 到 一 个 总 分 数 。 

最 近 几 年 ， 出 现 了 几 种 句子 排序 的 方法 。 它们 可 以 根据 下 面 三 种 策略 进行 分 类 

打分 (score) 训练 集中 的 每 个 句子 都 会 获得 一 个 分 数 。 这 个 分 数 可 以 通过 计算 文档 
中 句子 与 模型 摘要 中 句子 中 词 重 登 得 到 。 有 了 和 句子- 分数 组合 ， 我 们 就 可 以 学 习 一 个 回归 
模型 。 使 用 支持 向 量 回 归 (Support Vector Regression, SVR) 就 可 以 用 来 为 每 个 句子 学 
PPR 136, 37]. 

偏 序 (partial order) 每 对 句子 都 进行 排序 以 便 获得 句子 偏 序 。 句 子 偏 序 可 用 于 训 
练 排序 算法 。 例 如 ，Svore、Vanderwende 和 Burges [38] 就 使 用 RankNet [39]， 以 成 对 
AC XL hi (Pairwise Cross-Entropy) 为 损失 肾 数 。 这 类 似 于 Amini 等 人 使 用 指数 损失 函数 进 
ÍT XML 自动 文摘 的 工作 [40]. 

等 级 (rank) 男 一 个 学 习 摘 要 句子 的 方法 是 学 习 如 何 将 句子 排序 成 有 序 表 。 与 成 对 
排序 不 同 ， 句 子 可 排序 为 全 序 表 (或 者 至 少 分 成 几 “ 桶 ”并 在 桶 中 全 排序 )。 这 种 方式 的 
代表 工作 有 ListNet [41] 和 Wang 等 人 开发 的 基于 Web 的 自动 文摘 (Web-based summa- 
rization) [42], 

作为 3 种 机 器 学 习 方 法 之 一 的 举例 ,我 们 在 这 里 对 Amini 等 人 [40]. 的 基于 偏 序 的 
(partial order-based) 方法 进行 详细 的 描述 。 该 方法 的 学 习 框 架 用 了 一 个 得 分 图 数 A LR" R K 
反映 句子 特征 的 最 好 线性 组 合 。 分 类 器 的 目标 是 将 排序 损失 天 数 Lr 的 错误 率 最 小 化 。 对 于 
每 个 文档 dED, WA KAŽ b^ "enu a^ En dit is x cll 

Lr(h,D) = E eee — 1 25 >, LAG Sas’) 1] (12. 4) 
To psp | D 4 les" rest 
其 中 [AOR ) ]] 是 一 个 谓词 ， 如 果 hGOZAGÓ WHA 1. AMO. La(h.D) 
函数 不 断 在 所 有 的 正 例 和 反例 句子 组 合 中 迭代 ， 如 果 正 例句 子 的 得 分 小 于 反例 句子 的 得 
分 ， 则 增加 损失 函数 的 值 。 有 了 此 损失 函数 ， 排 序 算法 的 目标 就 是 学 习 一 个 得 分 洱 数 ， 
使 得 该 函数 为 同一 文档 中 的 相关 多 子 指派 一 个 比 无 关 句 子 更 高 的 得 分 。 
损失 函数 应 该 用 一 个 指数 函数 来 表示 ， 因 为 [L1] 是 不 可 微分 的 (differentiated)， 


KAAF sA s 的 得 分 差异 可 根据 公式 》,Bi(s; 一 si) 以 该 句子 的 不 同 特征 表示 的 差异 进 
=] 
行 计算 : 
25 iiA G5) 
Læs (D, B) = 一 一 一 一 一 一 一 一 e (12, 5) 
i lD T5122 iog i Sl alpi 
如 果 考 虑 到 学 习 算法 的 计算 复杂 度 ， 使 用 指数 损失 函数 就 是 有 好 处 的 。 它 能 很 容易 改 
写成 一 Wagon \ 式 ， 


Las (D,B) = +57 2) Dee Sette 0 (32,8) 


po 
den 55 diee «€ SP" 
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算法 12-1. 基于 排序 的 可 训练 摘录 式 自动 文摘 算法 LinearRank B5 £3 f& 88 


WA: Usen Sa xS; ,JX'P D ESUB IN S, SPORE (HE) 句子 的 集合 , SONERA (EWE) 


句子 的 集合 
输出 : 每 个 句子 向 量 s 都 被 归 一 化 以 便 使 法 ，= 1; 特征 权重 = (bibr) 被 设置 为 任意 值 ; t=0; 

repeat 

for i=1 to 

pet» zn AS T yt 

end for 

t=t+l 
until Lesp(D, F) 收敛 
return B 


使 用 每 个 新 文档 d AM nA d 创建 一 个 新 的 摘要 。 排 序 的 依据 是 以 BF 为 权重 的 句子 特 征 的 线性 组 合 。 
Amini 等 人 选择 了 一 个 称 为 LinearRank (算法 12-10. BgZk FEHEFF PRA hls, B), HB 


B= (Bis ,Bs) 是 特征 权重 向 量 代 表 特 征 列表 。 算 法 通过 更 新 规则 BY = BO + D>) 不 
断 和 迭代 调整 特征 向 量 权 重 以 优化 公式 12.6 所 描述 的 损失 函数 。 更 新 函数 可 更 精确 地 描述 
如 下 (更 详细 的 信息 请 见 Amini 等 人 的 工作 [40D: 


1 + pO t) / 
> | h(s +B. ) > hG,B ) — $';- g; 
rep e Sn © (1 Sj Si) 


yep Ts be | 


1 rogata u) ; 
> > AOS aB 9 > | —hOsHB- + "UPPER 
pos reset’ sess (1 S i si) 


feats, Tr | 


gr P pi + +lo 


(12.7) 

用 三 种 方法 中 的 一 种 生成 训练 集 以 后 ， 每 个 句子 都 需要 生成 对 应 的 特征 。 特 征 工程 是 
很 重要 的 ， 因 为 决定 了 分 类 器 能 学 习 的 程度 。 

假设 我 们 要 实现 一 个 基于 查询 的 多 文档 自动 文摘 ， 如 参加 DUC 或 者 TAC 的 自动 文摘 
评测 ， 我 们 可 以 利用 整体 主题 、 查 询 、 文 档 甚 至 聚 类 中 其 他 文档 的 频率 信息 。DUC/TAC 
任务 至 少 包 括 了 一 组 25 一 50 篇 依据 主题 分 组 的 文档 (例如 ，steps toward introduction of 
the Euro) 和 一 个 查询 (例如 ，describe steps taken and worldwide reaction prior to intro- 
duction of the Euro on January 1，1990)。 有 了 这 些 信 息 ， 我们 就 可 以 使 用 下 面 这 些 在 以 
往 系 统 中 用 过 的 特征 (例如 ，Schilder E Kondadadi [37 D: 

主题 标题 频率 (topic title frequency): 句子 中 出 现在 话题 标题 工 中 的 词 志 的 个 数 与 
AF s BS Rie C ti. sp ZH: 


s] 
mid PAR 1l; ^t €T 
i=] Nd 
Brem h 否则 
主题 描述 频率 (topic description frequency): 句子 s 中 出 现在 主题 描述 D 中 的 词 t; 的 
个 数 与 句子 s HAIZ t. |;| 之 比 : 


| s| 

T fp) I, Lj c D 
i=l = 

Pept te f Lo: 否则 


实 词 频率 (content word frequency): 句子 ;中 所 有 实 词 ti. |;| 的 平均 实 词 概率 
pi), in MRE LH PCT E. n 是 词 出 现在 聚 类 中 的 次 数 ，N 是 聚 类 中 词 的 总 数 : 


| s| 
S) pe (ti) 
i=] 
| s | 


408 


409 
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文档 频率 (document frequency): AIF s 中 所 有 实 词 1.. | :| 的 平均 文档 概率 pa (ti). 
文档 概率 定义 为 pa (G0. =, d 是 词 二 出 现在 给 定 聚 类 中 的 文档 的 个 数 ， 思 (2#) 是 聚 类 
中 文档 的 总 数 ， 
EM 


还 有 其 他 很 多 特征 ， 包 括 标题 频率 T s 中 所 有 实际 词 的 平均 标题 概率 )、 句 子 长 度 、 
句子 位 置 、 词 的 TF-IDF 值 、n 元 组 频率 以 及 句子 中 的 命名 实体 频率 等 都 被 证 明 是 有 效 的 。 

如 果 涉 及 的 所 有 语言 都 存在 对 齐 语 料 ， 或 者 可 以 很 容易 获得 对 齐 语 料 ， 这 些 机 器 学 习 
的 方法 在 多 语 自 动 文摘 中 也 能 很 好 地 工作 。 但 现实 并 非 如 此 ， 围 绕 数据 问题 的 工作 也 有 不 
少 ， 目 前 已 提出 了 很 多 方法 用 来 解决 不 同 语言 所 写 的 文本 之 间 的 鸿沟 。Ji 和 2Zha (20) 提 
出 了 一 个 算法 ， 对 多 语言 文档 对 的 CFO 话题 进行 对 齐 并 通过 提取 句子 来 实现 摘要 。 他 们 
使 用 加 权 的 二 分 图 来 实现 这 样 的 对 齐 ， 这 些 二 分 图 代表 了 两 个 文档 中 的 句子 。 然 后 句子 通 
过 机 器 翻译 系统 翻译 成 男 一 种 语言 ， 并 根据 计算 翻译 后 句子 和 原始 语言 句子 的 相似 度 分 数 
生成 一 个 权重 和 矩阵。 注意 ， 机 器 翻译 所 得 的 句子 并 不 需要 是 最 佳 翻译 ， 因 为 这 里 的 目的 是 
为 了 获取 两 个 句子 的 相似 度 。 

根据 该 加 权 图 ， 我 们 可 以 找 出 高 相关 的 句子 ， 这 些 句 子 给 出 了 两 个 文档 共享 的 主要 主 
题 。 此 外 ， 双 聚 类 算法 用 来 进一步 找 出 每 一 个 文档 已 聚 类 句子 的 子 主题 。 


12.2.4 多 语 自动 摘要 


1. 挑战 

我 们 回顾 那些 最 重要 的 自动 文摘 方法 是 如 何 处理 多 语 摘要 的 ， 现 今 的 大 多 数 自动 摘要 
方法 还 是 要 依赖 语言 相关 的 资源 和 工具 〈 例 如 修辞 分 析 器 、 提 示 短 语词 典 )。 一 些 方法 从 
与 源 语言 提取 的 表示 中 生成 文摘 ， 因 而 可 用 于 独立 于 语言 的 自动 文摘 。 

下 面 的 列表 总 结 了 多 语 自 动 文摘 系统 需 考虑 的 特征 摘要 。 这 些 都 是 我 们 在 做 多 语 时 必 
须 面 对 的 挑战 。 

词 元 切 分 (tokenization) ”由 于 不 同 的 语言 有 不 同 的 词 边界 表示 ， 所 以 词 元 切 分 是 我 
们 搭建 多 语 自动 文摘 第 一 个 应 该 克服 的 问题 。 比 如 英语 通过 空格 和 标点 符号 作为 一 个 词 元 
的 分 界 ， 但 其 他 语言 比如 中 文 ， 就 需要 一 个 更 复杂 的 分 词 器 来 从 一 连 串 输入 中 提取 词 元 ， 
因为 它们 之 间 没 有 空格 。 英 语 中 一 个 词 元 就 是 一 个 词 ， 但 是 在 不 同 的 语言 中 并 不 一 定 相 
同 。 其 他 语言 例如， 阿拉 伯 语 ) 需要 处 理 十 分 丰富 的 语法 形态 ， 因 而 要 求 能 处 理 形 元 层 
的 精细 处 理 。 

指 代 表达 (anaphoric expression) 指 代 关系 的 识别 (例如 ， 代 词 、 语 篇 标记 、 限 定性 
名 词 短 语 ) 能 帮助 文摘 结合 更 加 紧密 。 单 语 自动 文摘 中 已 经 存在 一 些 技 术 ， 但 是 多 语文 摘 面 
临 着 许多 挑战 ， 比 如 ， 不 同 语言 中 名 字 可 能 会 被 写成 不 同形 式 ， 语 篇 标记 也 会 有 不 同 的 语义 。 

Mitkov[4] 提出 了 一 种 知识 贫乏 的 指 代 消解 方法 。 除 了 使 用 性 、 数 一 致 性 ， 还 使 用 了 
许多 简单 的 标识 〈 例 如 ， 限 定性 、 给 予 性 、 动 词类 ) 并 为 可 能 的 先行 词汇 总 出 一 个 分 值 。 

篇 章 结构 (discourse structure) ”文档 结构 的 识别 有 助 于 提高 摘要 的 连贯 性 。 但 是 不 
同 的 语言 ， 文 本 表达 的 结构 也 不 相同 。 

机 器 翻译 ”机 器 翻译 技术 的 现 有 水 平 还 无 法 达到 一 个 高 质量 实用 的 水 平 。 当 设计 一 个 
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多 语 上 自动 文摘 系统 ， 设 计 者 必须 回答 机 器 翻译 应 该 在 系统 中 何 时 使 用 的 问题 。 如 果 一 开始 
就 翻译 ， 源 语言 的 组 件 能 被 重用 (比如 分 词 )。 如 果 在 识别 完 摘要 句子 后 再 进行 翻译 ， 相 
应 的 语言 相关 系统 就 必须 用 于 对 文档 进行 预 处 理 。 

2. 系统 

现在 有 三 个 重要 的 自动 文摘 系统 是 具有 多 语 能 力 的 ， 它 们 分 别 是 : MEAD, Summa 和 
NewsBlaster。 

MEADS 平台 是 多 语 自动 文摘 并 带 有 评测 的 平台 ， 提 供 了 几 种 不 同 的 文摘 算法 ， 有 基 
于 位 置 的 、 基 于 质心 的 、 基 于 最 长 公共 子 序列 的 以 及 基于 关键 词 的 。 它 是 用 Perl 编写 的 可 
以 公开 获得 的 平台 。 该 系统 的 框架 既 可 适用 于 之 前 讨论 过 的 基于 表层 特征 的 方法 也 可 用 于 
训练 侦 测 可 摘要 句子 的 分 类 器 。 它 提供 了 诸如 决策 树 、 支 持 向 量 机 以 及 最 大 信 等 的 机 器 学 
习 算 法 ， 人 允许 用 户 训练 自己 的 自动 文摘 方法 。 

MEAD 的 核心 框架 是 基于 质心 的 (centroid-based) 文摘 方法 。 质 心 是 对 某 文档 聚 类 起 重 
要 作用 的 词 的 集合 。 这 些 文档 得 的 相关 文档 和 文摘 句子 均 根 据 它们 包含 的 质心 进行 抽取 。 

这 个 聚 类 算法 叫做 CIDR [43]. CIDR 产生 的 文档 得 共 享 相同 的 词 。 从 一 个 文档 开 
始 ， 算 法 比较 其 他 簇 与 它 的 相似 度 。 文 档 用 词 向 量 表 示 。 各 词 的 值 则 为 该 词 的 TF-IDF 
E 〈 文 档 频 率 和 逆 文 档 频 率 )。 

每 个 入 都 有 一 个 质心 ， 可 以 描述 为 一 个 仅 包 含 最 重要 词 (HRA TF-IDF 值 ) 的 伪 文 
档 。 质 心 的 词 向 量 是 艇 内 所 有 文档 词 向 量 的 平均 值 。 

这 个 算法 从 一 个 文档 开始 ， 该 文档 被 放 进 第 一 艇 〈( 仅 包含 一 个 文档 )， 然 后 新 的 文档 
先 计算 它 和 每 个 簇 代 表 词 向 量 的 余弦 相似 度 ， 找 到 最 高 相似 度 的 那个 徐 ， 如 果 该 相似 度 不 
(RFS FCI HY BI. ABA REFERS kl ap BI TRA. 

余弦 相似 度 是 这 两 个 〈 词 ) 向 量 的 余弦 值 : 

B 


simi cun B= ancl ee LATET (12. 8) 


di 5 — 7 XC PALAIS BE a] EEIE, 那么 就 以 这 个 文档 成 立 一 个 新 的 族 。 

另 一 个 基于 图 的 算法 也 和 MEAD 一 起 出 现 : LexPageRank [5] 计算 词汇 连通 矩阵 
(根据 一 个 特定 的 冰 值 ) 中 句子 的 PageRank 分 值 。LexPageRank 和 TextRank 很 类 似 ， 都 
利用 PageRank 来 计算 句子 的 分 值 。 它 与 PageRank 的 不 同 在 于 图 权重 的 生成 方式 不 同 。 
LexPageRank 用 余弦 相似 度 来 计算 句子 间 相 似 度 而 生成 权重 。 它 还 允许 定义 余弦 相似 度 立 
值 ， 如 果 两 个 句子 的 余弦 相似 度 大 于 某 特定 阅 值 (例如 ，0. 1)， 它 们 之 间 才 会 产生 一 条 边 。 

男 一 个 自动 文摘 系统 是 SUMMA 该 系统 可 以 作为 GATE 的 插件 也 可 以 独立 运行 。 
该 系统 提供 基于 位 置 的 和 基于 质心 的 得 分 函数 ， 还 允许 用 户 添 加 自己 的 得 分 函数 。 系 统 还 
包含 了 多 种 相似 度 的 计算 方法 ， 例 如 余弦 相似 度 和 好 元 组 相似 度 。 

最 后 是 由 哥伦比亚 大 学 开发 的 NewsBlaster 自动 文摘 系统 (AE 12-3)， 可 以 处 理 
多 语 扩 展 [9]9 并 且 能 让 用 户 从 互联 网 上 的 多 个 网 站 浏览 多 语 新 闻 。 这 个 系统 对 不 是 英语 
的 文本 进行 机 器 翻译 ， 然 后 在 机 器 翻译 的 英语 文本 上 利用 了 经 充分 测试 的 〈well-tested ) 
方法 进行 文本 聚 类 [44]。 文 摘 则 使 用 哥伦比亚 文摘 系统 [45] 生成 ， 该 系统 聚 类 是 由 非 
英语 文本 翻译 而 来 的 文本 。 网 上 在 线 提供 该 系统 的 英语 版 本 ， 但 是 似乎 没有 多 语 版 本 。 





© http://www. summarization. com/mead/ 。 


© http://newsblaster. cs. columbia. edu 网 站 可 对 (英语 ) 新 闻 网 站 的 新 闻 (和 图 片 ) 进行 自动 文摘 。 
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Columbia Newsblaster mere March 31, 2010 


Summarizing all the news on the Web update: 5:09 AM EST 





Sunday: President Obama, with Vice President 
Biden, makes a statement to the nation following 
the final vote in the House of Representatives on 


a health insurance overhaul. 
Summary from United States, from articles in English 


Health care reform legislation a ycar in the making heads to President Obama's 
desk after Democrats cemented a narrow victory Sunday night on the heels of an 
intense week of arm-twisting and deal-making. (article 2) The House also voted 
220-211 to support a "reconciliation" bill aimed to "fix" provisions in the Senate 
bill that many House Democrats opposed but viewed as better than nothing. 
(article 2) Historian David Kennedy said President Franklin Roosevelt originally 
included universal health care as part of the Social Security legislation but pulled 
out those provisions before sending the bill to Capitol Hill. (article 7) The true 
motives of many blogs and organizations claiming to be pro-life have become 
clear in recent days: to politicize life issues as a means to defeat health care 
reform. (article 4) Obama signs final health care , student loan legislation 11:19 





图 12-3 NewsBlaster 所 生成 的 页 面 样 例 (摘自 Columbia KÆ) 


12.3 评测 


确定 一 个 自动 文摘 系统 生成 的 文摘 的 质量 也 是 自动 文摘 研究 领域 的 一 个 主要 挑战 。 文 
摘 评 价 的 方法 可 以 分 为 两 类 ， 外 部 评价 (extrinsic evaluation) 和 内 部 评价 (intrinsic eval- 
uation) 。 外 部 评价 方法 的 基本 思想 是 借助 于 上 自动 文摘 系统 完成 一 些 别 的 信息 处 理 任 务 ， 通 
过 该 任务 完成 的 性 能 指标 来 对 文摘 系统 作 间 接 评 价 。 内 部 评价 通过 直接 分 析 摘 要 的 质量 来 
评价 文摘 系统 ， 并 且 可 用 于 摘要 开发 周期 的 各 个 阶段 。 一 般 会 通过 比较 待 审 摘要 和 参考 摘 
要 的 覆盖 率 来 评价 。 参 考 摘 要 (reference summary) 一 般 由 人 工 提 供 ， 作 为 评测 比较 的 标 
准 摘要 。 如 果 是 在 进行 自动 文摘 系统 评测 ， 那 待 审 摘 要 (peer summary) 就 是 系统 产生 的 
摘要 ; 如 果 我 们 是 在 分 析 参 考 摘 要 的 质量 ， 那 它 也 可 以 是 人 工 编写 的 摘要 。 

按照 对 文摘 系统 的 评价 是 由 人 工 完 成 还 是 机 器 完成 ， 还 可 将 评价 方法 分 为 人 工 评价 和 
自动 评价 方式 。 自 然 ， 人 工 评价 在 很 大 程度 上 是 可 信 的 ， 因 为 人 可 以 推理 、 复 述 并 使 用 世 
界 知识 将 具有 类 似 意 思 但 形式 不 同 的 文本 单元 关联 起 来 。 如 果 评 价 容 易 实 施 、 管 理 且 无 须 
反复 执行 ， 则 人 工 评价 就 是 上 佳之 选 。 但 是 如 果 人 力 资源 有 限 ， 则 应 该 采用 上 自动 评价 方 
法 。 要 创造 一 种 对 一 般 自 动 文摘 任务 都 能 适用 的 自动 评测 方法 是 十 分 复杂 的 。 这 一 节 我 们 
将 详细 讨论 人 工 评价 和 目 动 评价 方法 。 


12.3.1 ALET 


不 管 是 对 单 文档 还 是 多 文档 ， 在 自动 文摘 中 ， 摘 要 或 者 信息 压缩 都 有 很 高 的 目 由 度 。 
信息 选取 很 大 程度 上 取决 于 任务 的 定义 、 问 题 所 属 的 话题 、 领 域 以 及 先 验 知 识 。 就 算是 人 
工 进行 文摘 任务 ， 不同 的 人 也 会 对 原文 中 哪些 句子 需 进 入 摘要 会 有 不 同意 见 。 人 们 在 进行 
人 工 评 价 练 习 时 发 现 并 分 析 了 这 一 奇怪 的 现象 。 

有 三 种 较为 流行 的 人 工 评 测 方法 ， 它 们 分 别 是 Lin 和 Hovy € [46] 和 [L47]) 提出 的 
文摘 评测 环境 (Summary Evaluation Environment, SEE), Van Halteren 和 Teufel | 48 | 
的 Factoid 方法 以 及 Nenkova 和 Passonneau [49] 的 金字 塔 (Pyramid) 方法 。 


1. 文摘 评测 环境 
文摘 评测 环境 ‘(Summary Evaluation Environment, SEE) 提供 了 用 户 友 好 界面 ， 评 
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审 员 可 通过 比较 待 审 摘要 和 参考 摘要 进行 质量 评测 。 将 参考 文摘 和 待 审 文摘 都 分 割 成 若干 
反映 基本 信息 〈 例 如 句子 、 子 句 等 ) 的 单元 ， 评 审 员 可 以 依据 各 待 审 摘要 单元 与 对 应 参考 
摘要 单元 的 比较 为 其 设 定 完全 或 部 分 内 容 匹 配 分 值 。 各 单元 的 语法 合法 性 也 可 分 别 打分 。 
此 工作 独特 的 特点 是 它 既 可 以 对 摘要 单元 整体 识别 也 允许 部 分 匹配 。 

2. Factoid 方法 


Factoid 工作 的 目标 就 是 比较 同一 文本 不 同 摘要 的 信息 内 容 ， 并 确定 要 在 人 工 编写 的 摘要 
中 达到 稳定 一 致 需要 的 摘要 的 最 小 数目 。Van Halteren 和 Teufel 研究 了 一 个 基于 单一 文本 创 
建 的 50 个 摘要 。 每 个 句子 都 有 一 系列 称 为 Factoid 的 原子 语义 单元 来 表示 。 这 里 ， 语 义 原子 
性 意味 着 每 个 Factoid 所 关联 的 语义 信息 可 以 小 到 一 个 词语 也 可 以 大 到 整个 句子 。 系 统 将 收 
集 并 分 析 所 有 摘要 的 Factoid 集 。 那 些 在 多 个 摘要 间 表 示 同 样 意 义 或 携带 同样 信息 量 的 Fac- 
toid 将 会 由 人 工 标 识 为 语义 相似 。 随 着 手工 创建 摘要 的 增长 并 达到 一 个 特定 水 平 ，Factoid 
集合 也 将 稳定 (新 摘要 以 及 其 对 应 的 Factoid 的 加 入 基本 不 会 影响 该 集合 ) 。 理 想 情况 是 ， 
在 我 们 开始 通过 内 容 对 比 评价 系统 生成 摘要 之 前 ， 人 工 撰写 的 摘要 标准 集 已 经 是 一 个 稳定 
WEE. Factoid 方法 显示 ， 要 在 参考 摘要 间 达 到 稳定 一 致 ， 至 少 需要 15 个 摘要 。 实 际 
上 ,， 由 于 信息 处 理 任务 的 资源 密集 本 质 ， 人 工 撰写 摘要 的 量 往往 远 小 于 这 个 数 。 

3. 金字塔 方法 

金字 塔 (Pyramid) 方法 是 Factoid 方法 的 一 个 更 大 规模 的 扩展 。Nenkova 和 Passon- 
neau 表明 ， 只 需 6 个 摘要 就 可 以 达到 参考 摘要 的 稳定 一 致 。 作 者 在 经 验 上 已 证 明 这 降低 了 
对 参考 摘要 数目 的 需求 ， 并且 能 达到 可 靠 鉴 别 摘要 计 分 的 主要 目标 。 文 摘 内 容 单元 
(Summarization Content Unit, SCU) 原来 被 定义 为 一 个 不 大 于 子 句 的 单元 ， 后 面 被 重新 
定义 为 大 于 一 个 词 但 小 于 一 个 句子 的 单元 ， 因 为 一 个 子 句 还 可 能 会 包含 多 个 语义 单元 。 

查找 相似 SCU 的 过 程 开始 于 对 相似 句子 的 查找 ， 然 
后 开始 更 精细 地 检查 更 紧密 相关 的 子 部 分 。 在 所 有 SCU 
都 被 找到 并 比较 后 ， 它 们 就 可 以 被 划分 为 如 图 12-4 的 金 
字 塔 结构 。 一 个 SCU 被 越 多 的 参考 文摘 包含 就 越 重 要 。 
将 所 有 SCU 按照 重要 程度 排序 , 同等 重要 的 SCU 排列 在 
同一 行 , 由 上 向 下 重要 程度 逐 行 递减 。 金 字 塔 的 层 数 和 
SCU 出 现在 摘要 中 的 数量 是 有 关系 的 ， 在 所 有 摘要 中 都 图 124 REFE GMA Neko- 
出 现 过 的 SCU 肯定 在 金字 塔 的 顶层 ， 因 为 它们 是 最 少 a on 
的 。 在 较 底层 出 现 的 SCU 可 用 来 表现 人 工 摘 要 撰写 者 在 理解 、 兴 趣 以 及 摘要 主题 知识 上 
的 差异 。 在 底层 大 量 的 SCU 也 说 明了 摘要 的 困难 性 。 下 面 用 一 个 来 自 Nenkova 和 Passon- 
neau [49] 的 文摘 例子 来 展示 摘要 的 多 样 性 ， 其 中 画 线 的 部 分 就 是 共享 的 SCU (这 四 个 句 
子 来 自 四 个 不 同 的 文摘 ) : 

A. In 1988 two Libyans indicted in 1991 for the Lockerbie bombing were still in Libya. 

B. Two Libyans were indicted in 1991 for blowing up a Pan Am jumbo jet over Lock- 
erbie, Scotland, in 1988. 

C. Two Libyans, accused by the United States and Britain of bombing a New York- 
bound Pan Am jet over Lockerbie, Scotland, in 1988, killing 270 people, for 10 years were 





harbored by Libya who claimed the suspects could not get a fair trial in America or Britain. 
D. Two Libyan suspects were indicted in 1991. 


我 们 可 以 获得 两 个 SCU: 
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SCU1 (权重 二 4); two Libyans were officially accused by the Lockerbie bombing 

A. [two Libyans ] [indicted ] 

B. [Two Libyans were indicted | 

C. [Two Libyans, | [accused | 

D. [Two Libyan suspects were indicted ] 

SCU2 (BU —3): the indictment of the two Lockerbie suspects were in 1991 

A. [in 1991] 

B. [in 1991] 

C. [in 1991] 

待 审 摘要 的 得 分 是 基于 精确 率 的 ， 待 审 摘要 SCU 的 权重 总 和 与 具 相 同 数量 SCU 的 最 
佳 摘 要 的 权重 总 和 之 间 的 比例 将 作为 该 待 审 摘要 的 得 分 。 假 设 我 们 有 一 个 已 经 由 参考 摘要 
中 的 SCU 构建 好 的 金字 塔 ， 在 待 审 摘要 中 包含 了 10 个 SCU， 而 仅仅 只 有 一 个 SCU HH 
在 金字 塔 里 ， 并 且 这 个 SCU 在 金字 塔 中 的 权重 是 1 (在 所 有 的 参考 摘要 里 仅 出 现 过 一 次 )， 
那么 这 个 待 审 摘要 的 得 分 就 是 1/10—0. 1, 

虽然 金字 塔 方法 和 其 他 人 工 评 价 一 样 需要 很 大 的 花费 ， 但 它 还 是 被 学 术 界 广泛 接受 为 
首选 手工 评价 方法 。 在 DUC M DUC 之 后 的 TAC 任务 中 都 用 到 了 这 个 评测 方法 。 

金字 塔 在 大 规模 数据 上 实验 的 男 一 个 好 处 是 可 以 获得 大 规模 的 人 工 撰写 的 摘要 和 对 应 
的 语义 单元 。 在 自动 文摘 系统 的 设计 和 调整 中 ， 以 语义 单元 为 标准 数据 将 有 助 于 句子 级 摘 
录 的 研究 。 

4。 啊 应 度 (responsiveness) 

除了 通过 人 工 进 行内 容 覆 盖 率 的 评测 ，TAC 还 为 每 个 待 审 摘 要 给 出 了 一 个 范围 为 1 一 
5 CK TAC 2009 开始 改 为 1 一 10) 的 响应 度 分 值 。 这 个 分 数 并 不 反映 待 审 摘要 和 参考 摘要 
的 相似 程度 ， 而 仅 反 映 竺 审 摘要 的 内 容 上 覆盖 率 和 语言 学 质量 〈 在 以 前 的 DUC 中 这 两 个 质 
量 被 分 开 评估 ) 。 


12.3.2 自动 评价 


自动 评价 系统 就 是 把 参考 摘要 和 符 审 摘要 作为 输入 ， 通 过 执行 文本 比较 以 产生 一 个 评 
价 结果 的 系统 。 为 了 测试 和 证 实 自动 评价 的 效果 ， 研 究 者 必须 证 明 该 自动 评价 的 结果 和 人 
工 评 价 相 高 度 、 正 向 、 一 致 相关 [50]. 

1. ROUGE 

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [50, 51] 是 第 一 个 自 
动 文摘 评测 系统 。 它 的 基本 思想 是 将 待 审 摘要 和 参考 摘要 的 2 元 组 共 现 统计 量 作为 评判 符 
审 摘要 的 依据 。ROUGE 受到 了 机 需 翻 译 自 动 评 价 方法 BLEU [52] Mak, (AA BLEU 
面向 精确 率 不 同 ， 它 是 一 个 面向 召回 率 的 方法 。 

ROUGE 不 是 用 一 个 指标 来 进行 评测 ， 而 是 有 一 系列 的 标准 对 机 器 生成 的 摘要 进行 打分 : 

* ROUGE-N: 计算 待 审 摘要 和 与 其 相应 的 所 有 参考 摘要 的 n TAAR., FIAR 

显示 如 何 计算 待 审 摘 要 匹配 的 nn 元 组 占 参 考 摘要 中 所 有 7 元 组 的 比例 : 


2 Count h (gram ) 
Sc (Reference Summaries} - gram, € S matc " 

ROUGE-N = ($9193 
z S€ (Reference Summaries) 2 gram, € S Count( gram, ) 


e ROUGE-L: 匹配 两 个 文本 单元 之 间 的 最 长 公共 序列 (Longest Common Subse- 
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quenee，LCS) 。 注 意 是 最 长 的 序列 匹配 ， 不 是 连续 匹配 。 不 需要 像 nn 元 组 匹配 一 
样 预定 义 一 个 长 度 限制 。 这 个 指标 也 反映 了 比较 的 单元 之 间 可 能 的 句法 结构 差异 。 
为 了 估计 长 度 为 m 的 摘要 X 和 长 度 为 n 的 摘要 Y 之 间 的 相似 度 ， 基 于 LCS W F 


值 可 定义 如 下 : 
Ris = ES (12. 10) 
m 
Pig = SD (12. 2) 
FE ER (1 "UT Fs Pies (12. 12) 


Bac ria 

LCS(X, Y) Æ X AY Bug IK AE ES). p= Pis / Re 34 OF ies /9R =OF tes / OP es o 

ROUGE-W; 计算 加 权 的 LCS. Æ ROUGE-L 中 我 们 考虑 的 公共 子 序列 并 不 要 求 

是 连续 的 ， 对 那些 不 连续 的 匹配 并 没有 惩罚 。ROUGE-W 对 词 序 列 的 连续 匹配 和 

非 连续 匹配 区 别 对 待 ， 并 对 非 连续 匹配 给 予 一 个 间隔 惩罚 (gap penalty). AiE i 

用 一 个 权重 函数 来 表示 ， 对 于 连续 匹配 将 返回 比 非 连续 匹配 更 高 的 奖励 值 。 

e ROUGE-S; 计算 跳 二 元 组 〈skip-bigram) 同 现 统 计量 。 一 个 跳 二 元 组 是 句 中 两 个 
有 序 的 词 ， 中 间 人 允许 任意 长 度 的 间隔 。 当 间隔 等 于 0， 则 等 价 于 ROUGE-N 中 n= 
2 的 情形 。 基 于 跳 二 元 组 的 下 值 计 算 公 式 如 下 : 


-READ 
naa | CUZ) BaN 
(o SKEAN) 
a N COE) nege 
(1 + BO Rskip2 P skip? (12. 15) 


F skip 7 Rskip2 + F Pskip2 
e ROUGE-SU; 它 是 对 ROUGE-S 的 补充 ， 增 加 单个 词 Cunigram) 的 匹配 以 处 理 两 
个 句子 没有 任何 跳 二 元 组 匹配 的 情况 ， 和 否则 ROUGE-S 将 会 对 那些 可 能 有 相同 内 
容 但 是 词 序列 不 同 的 句子 进行 惩罚 。 

ROUGE 产生 的 评测 结果 和 诸如 响应 度 这 样 的 人 工 评 测 有 很 高 的 相关 性 。 相 关 性 可 以 
通过 斯 皮尔 曼 等 级 (Spearman ranking) 和 皮尔 逊 相 关系 数 (Pearson correlation coeffi- 
cient) 来 表达 。 斯 皮尔 曼 相 关系 数 (Spearman correlation coefficient) 用 于 表明 两 个 等 级 
次 序 的 相关 性 : 

A n SRM (xi, yi) 时 


65. (az p yi)? 
eK et a D (12. 16) 
BEAR A He A HE t AED OX, YD 而 不 是 等 级 上 进行 计算 ， 如 下 : 
5x: — X) (Y: - Y 
r= 一 (12. 17) 


| S^ ax; - D Sq, — Y» 
i=] i=] 


ROUGE 自动 评测 方法 的 另 一 个 优点 是 它 不 依赖 其 他 语言 的 处 理工 具 ， 例 如 各 种 句法 
分 析 器 等 ， 但 它 还 是 提供 了 选项 以 使 用 户 在 需要 时 可 以 激活 词 干 化 和 词性 标注 。 
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2. FETC 

基 元 (Basic Elements, BE) [53] 是 基于 最 小 语义 单元 概念 的 自动 评测 方法 。 一 个 基 
元 是 从 句子 里 提取 出 来 的 一 个 类 似 subject-object 关系 和 modified-object 关系 的 语义 单元 。 
我 们 可 以 利用 很 多 不 同 的 句法 和 依存 分 析 器 得 到 BE: Charniak 分 析 器 [54]. Collins 分 
析 器 [55]. Minipar [56] 和 Microsoft Logical Forms [57], BE 分 割 模型 接受 一 个 句法 
分 析 树 并 利用 一 些 启 发 式 函数 从 中 提取 出 BE。Collins 和 Charniak 的 句法 分 析 树 是 短语 结 
构 树 ， 其 中 并 不 包含 中 心 词 和 修饰 词 间 的 语义 关系 。 而 Minipar 则 是 依存 树 ， 它 会 自动 产 
Ht <head; modifier; relation>iX## WJ —7t4#. BE 工具 包 默 认 是 用 Minipar 的 依存 树 来 
生成 BE。 系 统 通过 测量 待 审 摘要 的 BE 和 参考 摘要 的 BE 之 间 的 重合 来 进行 打分 。 

为 了 证 明 BE 在 评测 自动 文摘 中 是 有 效 的 ， 它 使 用 了 2003 年 DUC 的 结果 进行 测试 ， 
比较 系统 产生 的 待 审 摘要 和 作为 标准 的 参考 摘要 。 相 关系 数 通过 比较 DUC 系统 〈 待 审 摘 
要 和 基线 ) 和 BE 产生 的 等 级 和 平均 覆盖 率 得 分 进行 计算 。 在 验证 测试 集 上 同时 使 用 了 斯 
皮尔 曼 相 关系 数 和 皮尔 逊 相关 系数 。 虽 然 在 运行 BE 包 时 有 多 个 选项 ， 但 作者 表明 ， 在 评 
测 多 文档 结果 时 ， 运 行 BE-F (其 中 使 用 Minipar 来 抽取 BE， 不 区 分 中 心 词 和 修饰 词 间 
的 关系 ， 使 用 所 有 词 的 原形 ) 可 以 获得 最 高 的 斯 皮尔 曼 和 皮尔 了 还 相 关系 数 。 

在 进行 自动 文摘 系统 开发 和 调试 时 ， 通 常会 同时 运行 ROUGE 和 BE 方法 以 对 系统 生 
成 的 结果 进行 整体 分 析 。 然 而 ， 由 于 BE 需要 依赖 分 析 器 ， 所 以 如 果 某 语言 没有 依存 分 析 
器 ， 研 究 者 们 可 能 无 法 在 多 语言 场景 下 使 用 BE &. 

3. 相关 工作 

ROUGE 和 BE 比较 流行 是 因为 它们 的 简单 性 以 及 和 人 工 判 断 的 高 一 致 性 。 但 是 待 审 
摘要 和 参考 摘要 的 文本 单元 之 间 的 比较 还 仅 限于 词汇 标识 的 匹配 。 利 用 复述 (paraphrase) 
和 同义词 测量 语义 相近 性 的 研究 也 已 经 出 现 。ParaEval [58j」 方 法 整体 是 3 层 比 较 策略 ， 
其 中 利用 了 复述 匹配 。 最 顶层 通过 贪心 算法 在 参考 摘要 (通常 是 人 工 撰 写 的 ) 和 竺 审 摘要 
(系统 生成 的 ) 之 间 、 在 短语 级 别 上 寻找 多 词 复 述 的 重合 数 ， 并 选择 具有 高 履 盖 率 的 摘要 ，。 
那些 不 匹配 的 部 分 将 进入 到 下 一 层 ， 该 层 使 用 用 贪心 算法 寻找 单个 词 的 复述 或 同义词 匹 
配 。 最 后 一 层 (最 底层 ) 则 将 前 两 层 比较 剩 下 的 文本 用 ROUGE-1 评测 。 这 个 多 层 设 计 可 
以 保证 在 没有 复述 被 发 现时 ， 在 ROUGE-1 的 层面 上 也 可 以 进行 摘要 内 容 匹 配 。 和 原来 的 
ROUGE 相 比 ，ParaEval 在 相关 性 上 有 略微 的 提高 。 我 们 可 以 应 用 机 器 翻译 对 齐 数据 来 产 
生 复 述 ， 其 中 假设 那些 经 常 可 互 换 翻 译 的 短语 很 可 能 互 为 复述 [59]. xx T 7i iow PL ss 88 
译 评测 是 很 有 效 的 [60]， 因 为 翻译 的 目标 是 从 原始 文档 中 产生 一 个 没有 压缩 和 元 余 的 目 
标语 言 文档 。 


12.3.3 自动 文摘 评测 系统 的 近期 发 展 


2004 年 ，Filatova 和 Hatzivassiloglou [61] 将 原子 事件 定义 为 文本 描述 活动 的 主要 成 分 ， 
这 些 活动 由 动词 和 动作 性 名 词 关 联 起 来 。 他 们 认为 文本 中 事件 的 主要 成 分 可 以 标记 为 命名 实 
体 ， 一 个 原子 事件 是 一 个 三 元 组 ， 包 含 同 一 个 句子 中 动词 或 者 动作 性 名 词 以 及 由 它 联 系 起 来 
的 两 个 命名 实体 。 原 子 事件 用 于 创建 基于 事件 的 摘要 ， 并 且 尚 未 在 任何 评测 方法 中 建 模 。 

Tratz 和 Hovy [62] 提出 了 一 种 对 原始 BE 方法 的 改进 ， 该 改进 有 助 于 将 表层 文本 转 
换 为 基 元 文本 单元 ， 该 方法 称 为 BEwTE (BE with Transformations for Evaluation), 3X 
个 工作 的 基本 思路 是 简单 的 词汇 识别 匹配 ， 未 考虑 句法 或 语义 结构 不 同 但 意义 相同 或 相似 
的 文本 单位 的 等 价 性 。 为 了 进行 自动 转换 ， 该 方法 提出 了 一 系列 的 转换 启发 函数 并 定义 了 
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它们 的 执行 次 序 。 这 一 方法 的 创建 过 程 是 人 工 执行 的 。 待 审 摘要 的 BE 得 分 是 通过 贪心 匹 
配 算法 计算 的 ， 同 时 也 使 用 对 应 各 参考 BE 的 总 权重 进行 归 一 化 。 该 方法 在 各 DUC 和 
TAC 数据 上 的 相关 性 检测 效果 比 原始 的 BE 方法 和 ROUGE 都 要 好 。 除 了 依赖 语言 处 理工 
具 外 ，BEwTE 在 处 理 多 语 的 时 候 需 要 大 量 人 工 劳动 和 语言 学 知识 以 编写 转换 规则 并 规定 
其 执行 次 序 。 

Louis 和 Nenkova [63] 提出 了 一 种 自动 文摘 的 评测 方法 ， 该 方法 不 需要 用 到 人 工 把 
写 的 参考 摘要 。 该 工作 假设 标准 摘要 在 文本 的 词 概率 分 布 上 有 较 低 的 散 度 ， 低 散 度 意味 着 
高 相似 度 。 参 考 摘 要 和 待 审 摘 要 之 间 的 Kullbank Leibler (KL) 散 度 和 Jensen Shannon 
JS) 散 度 被 用 作 摘 要 的 得 分 。 话 题 信 号 [64] 这 一 十 分 重要 的 摘要 特征 也 证 明 在 摘要 评 
价 中 有 很 好 的 指导 意义 ， 高 话题 集中 度 表 明 更 高 的 摘要 内 容 质量 。 

男 一 个 创新 的 工作 ，AutoSummENG (基于 ”元 组 图 的 自动 摘要 评价 ，Automatic 
Summary Evaluation based on n-gram Graphs [65]) 则 创建 摘要 图 ， 其 中 ?元 组 是 节点 ， 
n 元 组 之 间 的 关系 是 边 。 该 工作 中 ， 摘 要 间 的 比较 就 变 成 了 待 审 摘要 图 与 参考 摘要 图 间 的 
比较 了。 关系 用 nn 元 组 周围 固定 长 度 的 上 下 文 窗口 信息 进行 建 模 。 边 的 权重 则 用 n 元 组 节 
点 之 间 的 距离 和 文本 中 的 同 现 次 数 来 表示 。 这 个 方法 比 其 他 自动 方法 效果 要 好 ， 此 外 ， 它 
还 不 需要 语言 相关 的 分 析 工 具 ， 因 而 具有 语言 中 立 的 优点 。 


12.3.4 多 语 自 动 文 摘 的 自动 评测 方法 


自动 文摘 是 一 个 复杂 的 自然 语言 处 理 任 务 ， 它 的 评测 是 一 个 挑战 ， 这 也 促进 了 领域 的 
发 展 。 虽 然 大 多 数 自 动 评测 方法 都 是 基于 词汇 识别 匹配 的 ， 但 它们 通过 统计 方法 为 自动 文 
摘 质量 提供 了 一 个 可 靠 的 评测 方法 。 通 过 这 些 方法 我 们 可 以 识别 一 个 系统 是 好 是 坏 ， 但 是 
对 于 接近 的 系统 ， 要 识别 出 它们 的 细微 差别 是 有 困难 的 。 考 虑 到 这 些 评测 方法 的 缺点 ， 理 
解 任务 并 进行 错误 分 析 对 于 摘要 系统 的 设计 者 来 说 是 十 分 重要 的 。 而 能 用 于 多 语 自 动 文摘 
的 目 动 评测 方法 就 更 少 了 ， 表 12-2 总 结 了 本 节 所 讨论 的 自动 评测 方法 的 语言 无 关 情 况 。 

表 12-2 自动 文摘 所 使 用 的 评价 指标 以 及 它们 需要 的 语言 相关 处 理工 具 


方法 名 是 否 依 赖 语言 处 理工 具 备注 

ROUGE E 

BE 是 短语 结构 树 和 依存 树 分 析 器 
ParaEval 否 PL at FE FF BE 

BEwTE 是 基 元 依存 和 语言 学 知识 
Divergence ([ 63 1) 否 

AutoSummENG f 


12.4 如何 搭 建 自 动 文摘 系统 


本 节 给 出 如 何 搭建 自动 文摘 系统 的 一 个 蓝图 。 我 们 不 指定 任何 特殊 的 编程 语言 和 开发 
框架 ， 因 为 一 个 自动 文摘 能 用 任何 编程 语言 搭建 。 本 节 包 含 了 用 不 同 的 工具 和 框架 从 零 开 
始 或 在 已 有 框架 上 搭建 一 个 多 语 目 动 文摘 系统 的 指南 。 

一 个 多 语 自动 文摘 系统 的 一 般 流程 如 图 12-5 所 示 。 这 个 一 般 流程 反映 了 自动 文摘 的 3 
个 普遍 步骤 (我们 在 12. 2. 1 节 做 过 介绍 )。 首 先 ， 文档 必须 经 过 分 析 。 根 据 想 要 搭建 的 多 
语 自 动 文摘 系统 类 型 ， 我 们 的 输入 文档 可 能 是 一 种 语言 ( 即 跨 语 际 摘要 ) 或 者 多 种 语言 
( 即 跨 语 言 摘要 )。12. 5 节 列 出 了 多 个 多 语 语 料 库 。 语 言 的 选择 将 影响 到 我 们 后 面 要 选 的 
IR C28 12.4.2 T). 


419 


308 fp E X 


收集 好 输入 数据 以 后 ， 就 开始 使 用 分 词 工具 了 。 分 词 可 能 不 只 是 简单 的 空格 分 词 ， 一 
些 特 别 的 语言 (例如 中 文 ) 就 不 是 用 空格 或 者 标点 符号 作为 词 的 界限 ; 如 果 某 种 语言 有 丰 
富 的 形态 《比如 阿拉 伯 语 )， 或 者 能 生成 大 量 的 复合 表达 (如 德语 的 复合 名 词 );， 也 可 能 需 
要 比 词 更 精细 的 分 类 。 这 个 分 析 步 又 也 包含 其 他 的 一 些 划 分 和 组 块 技术 ， 例如 人 句子 划分 、 组 
块 分 析 和 人 名 法 分 析 等 。 在 分 词 处 理 中 ， 词 元 、n 元 组 、 组 块 等 单位 的 频率 也 都 需要 统计 。 

在 对 文本 进行 词 元 划分 后 ， 下 一 步 是 把 这 些 词 元 联系 起 来 ， 可 以 通过 共 指 关系 《例如 ， 
Microsoft-the company) 或 者 前 后 上 下 文 〈 例 如 ，Tepday-Microsoftannounced) 加 以 实现 。 





图 12-5 多 语文 摘 系 统 的 蓝图 


分 析 阶 段 的 最 后 步骤 是 对 输入 内 容 进行 翻译 。 这 可 以 在 分 词 和 词 元 联系 前 、 后 做 ， 甚 
[zo] SAHRA EKER A MC. 

自动 文摘 系统 的 第 二 个 阶段 是 对 分 析 后 的 文本 进行 转换 。 文 本 分 析 中 所 做 的 选择 决定 
了 什么 样 的 表达 会 成 为 转换 模块 的 输入 。12. 2 节 提 供 了 文摘 系统 可 选择 的 不 同方 法 。 本 
步骤 的 输出 是 一 个 根据 摘要 重要 性 降序 排列 的 句子 或 语 块 列表 

最 后 的 实现 步 又 将 生成 摘要 。 通 过 应 用 各 种 去 元 余 技 术 〈 例 如 QR， 余 弦 相 似 度 )， 我 
们 可 以 把 要 输出 文本 中 的 宛 余 移 除 。 如 果 在 输入 文本 中 并 没有 进行 机 器 翻译 ， 那 么 现在 就 
需要 把 生成 的 文本 翻译 成 目标 语言 。 
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12.4.1 BW 


开发 一 个 多 语 自 动 文摘 系统 ， 各 种 形式 的 数据 是 首要 和 条件， 理想 情况 是 ， 我 们 可 以 从 
NIST? 和 LDCS 上 获取 各 种 摘要 语料库 。 

然而 ， 大 多 情况 下 ， 我 们 并 没有 某 领 域 的 可 用 数据 ， 而 创造 标准 数据 的 代价 又 是 十 分 
昂贵 的 。 这 种 情况 下 ， 我们 可 以 通过 在 可 用 的 数据 上 训练 和 测试 系统 ， 然 后 将 该 系统 迁移 
到 新 领域 或 者 使 其 对 新 领域 进行 自 适 应 。 很 明显 ， 领 域 适应 问题 本 身 就 是 一 个 很 有 趣 的 研 
究 方 向 ， 请 参考 最 近 的 一 些 工作 ， 如 Daumé 和 Marcu [66] 所 描述 的 或 ACL 2010 领域 自 
适应 Workshop 上 所 报告 的 号 。 

训练 自动 文摘 工具 的 一 个 好 的 起 点 是 NIST 为 DUC 和 TAC 所 提供 的 数据 集 。 

系统 可 以 用 不 同 的 框架 实现 。 我 们 在 这 里 列 出 一 些 可 能 的 建议 ， 但 并 不 是 表示 这 是 一 
个 完全 的 列表 : 


UIMA® 表示 无 结构 信息 管理 架构 (Unstructured Information Management Archi- 
tecture), Æ IBM 开发 的 一 个 Apache 项 目 。 它 有 一 个 组 件 架 构 和 软件 框架 ， 可 以 
实现 对 无 结构 内 容 的 分 析 ， 例 如 文本 、 视 频 和 音频 数据 。 这 个 框架 是 基于 Java 的 ， 
但 也 可 用 于 CC 十 。 

GATE 名 是 一 个 文本 工程 的 通用 架构 (General Architecture for Text Engineering) , 
T 1996 由 谢 菲 尔 德 大 学 开发 并 发 布 了 第 一 个 版 本 。GATE 是 自然 语言 处 理 的 一 
个 通用 框架 ， 它 包含 了 很 多 主要 由 Java 实现 并 对 开发 文摘 系统 很 有 用 的 语言 处 
理工 具 。 而 且 Horacia Saggion 所 开发 的 SUMMA 工具 包 就 可 以 作为 GATE 的 
插件 。 

NLTK® ， 自 然 语 言 处 理工 具 包 (the Natural Language ToolKit)， 提 供 了 很 多 用 
Python 写 的 自然 语言 处 理工 具 。 这 个 工具 包 的 开发 是 为 了 指导 如 何 用 Python 处 理 
自然 语言 ， 其 中 包含 了 类 型 多 样 的 包 ， 包 插 各 种 不 同 的 标注 句 、 词 干 还 原 人 盘 、 人 名 
法 分 析 器 以 及 语 料 处 理工 具 和 分 类 与 聚 类 算法 等 。 

R9 不 是 一 个 自然 语言 处 理工 具 ， 它 是 一 个 用 于 统计 计算 和 图 处 理 的 免费 软件 环 
境 ， 使 用 它 我 们 可 以 很 容易 实现 12. 2 节 中 讨论 过 的 一 些 技术 。 其 中 还 包含 了 很 多 
机 器 学 习 的 包 Q 和 进行 图 处 理 的 工具 @ ， 包 括 PageRank 的 实现 。 


这 些 通用 的 框架 为 我 们 编写 自己 的 文摘 系统 提供 了 支持 ， 你 也 可 用 从 我 们 前 面 介 绍 过 
的 开源 的 自动 文摘 系统 开始 : MEAD Al SUMMA, 


12:42. TX 
搭建 一 个 自动 文摘 系统 需要 很 多 工具 。 特 别 地 ， 如 果 处 理 的 是 多 语言 ， 则 一 个 机 做 翻 


e oec ,ee to 


http://www. nist. gov/tac/data/index. html, 

http://www. ldc. upenn. edu/ 。 

http: / /sites. google. com/site/danlp2010/home, 

http; //uima. apache. org/. 

http; //gate. ac. uk, 

http://www. nltk. org/. 

http://www. r-project. org/ . 

http: //cran. r-project. org/web/views/MachineLearning. html, 
http; //igraph. sourceforge. net/ , 
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译 程 序 就 是 必要 的 。 

下 面 是 一 个 “材料 ”列表 ， 提 供 了 很 多 关于 如 何 用 一 个 材料 替代 另 一 个 的 建议 。 

分 词 工 具 (tokenizer) 或 句子 划分 工具 (sentence splitter) 前 面 提 到 的 工具 (例如 
NLTK, GATE) 中 都 包含 了 分 词 和 句子 划分 工具 。 下 面 还 有 一 些 提供 相似 功能 的 自然 语 
言 处 理工 具 : 

* lingPipe 提供 了 几 个 不 同 的 Java 包 来 对 人 类 语言 进行 分 析 ， 包 括 句 子 划 分 工具 、 

中 文 分 词 工 具 以 及 英文 分 词 工 具 。 

e openNLP 合并 了 几 个 开源 的 自然 语言 处 理 项 目 ， 也 提供 句子 划分 和 分 词 工 具 。 

机 器 翻译 程序 (machine translation program) 可 用 的 机 器 翻译 工具 有 好 几 个 ， 可 以 让 
研究 者 训练 目 己 的 统计 机 器 学 习 模 型 : 

e Giza++ http://fjoch. com/GIZA++. html, 

e Thot http://sourceforge. net/projects/thot/ , 

e Moses http://www. stamt. org/moses/ , 

* Joshua http://www. cs. jhu. edu/ccb/joshua/index. html, 

另 一 种 方式 是 通过 Google 翻译 API: 

http://code. google. com/p/google-api-translate-java/ , 

特征 选择 工具 (feature extractor) “为 了 运行 机 器 学 习 实 验 或 生成 图 表示 ， 研 究 者 必 
须 从 文档 的 句子 (或 者 词 ) 中 提取 特征 。 有 一 些 可 用 工具 可 以 实现 这 些 处 理 并 提供 直接 可 
用 (out-of-the-box) 的 特征 选择 器 (例如 基于 nn 元 组 的 特征 )。 科 罗拉 多 博 尔 德 大 学 开发 
的 与 UIMA 框架 一 起 运作 的 工具 称 为 ClearTKS [67]. 


12.4.3 WIH 


前 面 两 小 节 已 经 指出 了 搭建 自己 的 自动 文摘 系统 的 必要 材料 和 工具 。 在 本 章 的 最 后 部 
分 ， 我 们 讨论 如 何 利 用 自动 文摘 系统 的 蓝图 (参见 图 12-5). 

首先 ， 必 须 确 定 在 何 处 使 用 机 顺 翻 译 。 可 以 先 翻译 也 可 以 后 翻译 。 后 翻译 有 两 个 优 
点 : 当 对 大 量 的 文档 进行 摘要 时 ， 文 摘 系 统 的 速度 会 比较 快 。 因 为 只 有 摘要 的 甸子 需要 
翻译 。 还 有 如 果 后 翻译 ， 翻 译 错误 对 文摘 处 理 的 影响 会 比较 小 。 如 果 文 摘要 使 用 一 个 高 
层次 的 语言 学 特征 ， 例 如 句法 分 析 树 ， 那 么 翻译 错误 对 其 影响 将 会 是 很 大 的 ， 如 果 聚 类 
或 基于 图 的 方法 是 基于 词 袋 或 者 nn 元 组 特征 的 ， 那 么 翻译 错误 也 许 就 不 会 有 影响 。 根 据 
你 的 选择 ， 其 他 组 件 也 应 可 获得 并 产生 出 有 一 定 质量 的 输出 (例如 分 词 程序 、 组 块 分 析 
器 等 ) 。 

然后 ， 你 需要 确定 整体 方法 。12. 2 节 我 们 总 结 了 很 多 不 同方 法 ， 特 别 介绍 了 聚 类 和 
基于 图 的 方法 ， 它 们 在 跨 语言 或 跨 语 际 文摘 上 也 能 很 好 地 工作 。 在 做 这 部 分 决定 时 ， 你 应 
该 考虑 到 可 用 的 语言 资源 以 及 机 器 翻译 组 件 的 质量 。 输 出 将 会 是 一 个 摘要 句子 的 排序 列 
表 ， 其 中 最 好 的 句子 就 是 最 应 该 人 选 摘要 的 句子 。 

系统 的 生成 部 分 有 一 个 可 选 的 模块 。 对 于 多 文档 自动 文摘 ， 这 个 模块 是 为 了 确保 没有 
元 余 的 句子 被 选择 ， 而 对 于 多 语 自 动 文摘 系统 ， 则 它 必须 确保 实体 和 概念 被 正确 地 翻译 。 
一 些 系统 提供 了 去 元 余 (例如 Carbonell 和 Goldstein [18]) 或 选择 其 他 语言 的 名 字 A 
如 Mani, Yeh 和 Candon [14 D 的 解决 方法 。 


©  http://code. google. com/p/cleartk/. 
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最 后 ， 最 重要 的 是 你 必须 决定 用 哪 种 评价 方法 。 根 据 你 使 用 的 系统 选择 是 内 部 评价 还 
是 外 部 评价 。 使 用 不 同 的 参数 进行 评测 ， 根 据 评测 结果 决定 最 好 的 系统 参数 。 


12.5 评测 竞赛 和 数据 集 


12. 5. 1 评测 竞赛 


DUC (Document Understanding Conference， 文 本 理解 会 议 ) 由 美国 国家 标准 化 局 
(National Institute of Standards and Technology, NIST) 从 2001 年 发 起 一 直 举 办 到 2007 
年 ， 会 议 致力 于 推动 自动 文摘 研究 的 发 展 并 提供 了 一 个 让 研究 者 能 参与 到 大 规模 文本 测 
试 中 来 的 论坛 。 会 议 的 任务 有 单 文档 文摘 也 有 多 文档 文摘 ， 除 了 2003 年 涉及 对 阿拉 伯 
语 到 英语 翻译 的 文摘 外 ， 此 会 议 基 本 只 涉及 英语 。 

TAC DUC 会 议 从 2008 年 改名 为 文本 分 析 会 议 (Text Analysis Conference) 。 任 务 
包括 基于 查询 的 多 文档 文摘 、 基 于 观点 的 自动 文摘 ， 还 有 更 新 式 文 摘 。2011 年 TAC 包 
含 了 多 语 任务 ，2012 年 的 实体 链接 任务 将 真正 是 多 语言 的 ， 涉 及 英语 、 中 文 和 西 班 
A Hr. 

MSE 多 语 自 动 文摘 评测 (Multilingual Summarization Evaluation, MSE) 2005 年 和 
2006 年 都 关注 多 文档 自动 摘要 ， 语 料 是 TDT-4 语料库 中 的 英语 和 阿拉 伯 语 部 分 ， 包含 了 
41 728 篇 阿拉 伯 语 文档 和 23 602 篇 英语 文档 。 和 DUC 2003 的 自动 摘要 任务 类 似 ， 自 动 文 
摘 是 在 原始 英文 新 闻 文 章 的 阿拉 伯 语 翻译 上 进行 的 。 首 先 通过 哥伦比亚 大 学 聚 类 算法 对 
TDT4 语 料 进行 聚 类 ， 然 后 使 用 ISI 的 机 器 翻译 系统 来 翻译 阿拉 伯 语 。 有 趣 的 是 2005 年 的 
最 好 系统 只 用 英语 句子 作为 输入 。 


12.5.2 数据 集 


SummBank (#18, #13) 有 18 147 篇 双语 平行 文章 ， 来 自 中 华人 民 共 和 国 香港 
特别 行政 区 信息 服务 部 (Information Services Department of the Hong-Kong Spe- 
cial Administrative Region of the People's Republic of China) : 
http: //clair. si. umich. edu/clair/CSTBank/ 
http://www. Ide. upenn. edu/Catalog/CatalogEntry.jsp? catalogID— LDC2003T16 
。 文档 理解 会 议 (Document Understanding Conference) (英语 、 阿 拉 伯 语 [DUC 2003D9 , 
。 文本 分 析 会 议 (Text Analysis Conference) (英语 )S 。 
。 多 语 自 动 文摘 评测 (Multilingual Summarization Evaluation) (阿拉 伯 语 、 英 语 )，。 
© 跨 文 档 结 构 理 论 库 (Crossdocument Structure Theory Bank, CSTBank) (英语 ): 
数据 用 跨 文档 结构 理论 (Crossdocument Structure Theory, CST) 进行 标注 ，CST 
是 一 个 与 修辞 结构 理论 相关 的 描述 多 文档 语 篇 结构 的 功能 理论 。 
(http://clair. si. umich. edu/clair/CSTBank/) 
。 纽 约 时 报 标注 语料库 (The New York Times Annotated Corpus) (#18) 包含 了 从 
1987 年 1 月 1 日 到 2007 年 6 月 19 日 纽约 时 报 的 超过 180 万 篇 文章 ， 以 及 由 纽约 时 
报 编辑 室 (New York Times Newsroom) 提供 的 文章 元 数据 。 该 语料库 包含 了 由 
图 书馆 科学 家 所 撰写 的 超过 650 000 篇 文章 摘要 。 虽 然 是 单 语 语料库 ， 但 是 其 中 提 


© http:/ /www-nlpir. nist. gov/ projects/ duc/ data. html, 
© http://www. nist. gov/tac/data/index. html, 
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供 了 对 人 物 、 组 织 、 地 点 以 及 话题 描述 等 的 规范 化 索引 ， 对 路 文档 的 实体 映射 很 
有 帮助 。 
http://www. ldc. upenn. edu/Catalog/CatalogEntry. jsp? catalogld— LDC2008T19 
语言 理解 标注 语料库 (The Language Understanding Annotation Corpus) (阿拉 伯 
语 、 英 语 ) 包含 9000 词 的 已 标注 英文 文本 (6949 词 ) 和 阿拉 伯 语 文本 (2183 
i, ， 标 注 包 括 : 承诺 信和 度 (committed belief) 、 事 件 与 实体 共 指 关系 (event and 
entity coreference), Xj ih fr X (dialog act). LA X Hf E HK K ( temporal 
relation) 等 。 
http://www. ldc. upenn. edu/Catalog/CatalogEntry. jsp? catalogld=LDC2009T10 
。 话题 检测 与 跟踪 (Topic Detection and Tracking, TDT) 语料库 包含 了 多 年 创建 的 
多 语言 数据 (英语 、 阿 拉 伯 语 、 中 文 普通 话 )。TDT2 多 语文 本 (TDT2 Multilan- 
guage Text) 语料库 包含 了 来 自 两 种 语言 (美式 英语 和 中 文 普通 话 ) 9 个 新 闻 源 超 
过 6 个 月 (19984£1—6 A) 的 新 闻 数 据 。 
http://www. ldc. upenn. edu/Catalog/CatalogEntry. jsp? catalogId= LDA2001T57 
TDT 3 的 数据 除了 上 面 的 9 个 来 源 外 还 增加 了 两 个 英语 电视 源 。 这 个 语料库 包含 
了 3 个 月 期 间 每 日 收集 的 数据 (1998 年 10 月 到 12 月 )。 
http://www. ldc. upenn. edu/Catalog/CatalogEntry. jsp? catalogld=LDA2001T58 
最 后 ，TDT4 包含 了 在 2002 年 和 2003 年 TDT 技术 评测 中 使 用 的 英语 、 阿 拉 伯 语 
和 中 文 (广播 新 闻 肢 本 和 新 闻 数 据 〉 的 完整 数据 集 。 
http://www. ldc. upenn. edu/Catalog/CatalogEntry. jsp? catalogld=LDA2005T16 


12.6 & 


这 一 章 我 们 讲述 了 进行 自动 文摘 的 主要 方法 并 展示 了 如 何 将 它 扩 展 到 多 语 环境 。 多 语 
自动 文摘 与 为 单个 源 或 目标 语言 设计 的 自动 文摘 系统 相 比 ， 更 为 复杂 。 

在 对 多 语 自动 文摘 的 历史 进行 简单 介绍 后 ， 我 们 综述 了 自动 文摘 的 主要 方法 。 大 多 数 
单 语 自动 文摘 文 分 3 个 阶段 : 分 析 、 转 换 和 生成 。 对 多 语 自 动 文 摘 也 一 样 。 

1) 在 分 析 阶 段 ， 文 摘 系 统 可 以 以 图 的 形式 来 表示 一 个 文本 。 这 可 能 是 语言 学 的 语 篇 
树 或 者 是 基于 名 -名 相似 度 的 矩阵 表示 。 

2) 诸如 PageRank 的 基于 图 的 算法 或 根据 相关 性 对 句子 进行 分 类 的 基于 机 器 学 习 的 分 
类 融会 执行 转换 处 理 。 

3) 在 生成 摘要 时 ， 多 语文 摘 面 临 许多 语言 相关 问题 例如 分 词 、 指 代 消 解 和 文摘 实现 
的 语 篇 结构 等 问题 。 

在 自动 文摘 处 理 中 涉及 很 多 自然 语言 处 理 领 域 的 研究 ， 例 如 语言 模型 、 理 解 、 共 指 消 
解 、 指 代 消 解 和 表层 实现 等 。 每 个 任务 都 有 很 多 问题 和 解决 方法 ， 这 就 增加 了 目 动 文摘 问 
题 的 复杂 性 和 变化 性 。 

这 些 复杂 性 也 使 其 评测 过 程 (任务 的 定义 以 及 解决 方案 的 比较 ) 变 得 复杂 。 作 为 研究 
的 一 部 分 ,已 经 有 很 多 人 工 评价 和 自动 评价 方法 被 提出 。 针 对 不 同 的 任务 ， 例 如 基于 查询 
的 自动 文摘 、 单 文档 自动 文摘 和 多 文档 自动 文摘 ， 有 不 同 的 评价 方法 。 我 们 讨论 了 几乎 所 
有 的 主流 评价 方法 。 这 些 方法 涉及 的 指标 从 人 工 标注 到 自动 生成 的 都 有 ， 有 时 是 语言 无 关 
的 ， 有 时 则 需要 诸如 分 析 器 等 与 特定 语言 相关 的 资源 。 

然后 我 们 介绍 了 用 一 些 可 用 的 工具 资源 来 搭建 一 个 自动 文摘 系统 。 许 多 目 然 语言 处 理 
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工具 都 可 以 获得 〈 尽 管 不 是 所 有 语言 都 有 )。 机 器 翻译 系统 能 解决 一 些 语 言 障 碍 问题 ， 但 
在 那些 没有 被 广泛 研究 的 语言 中 要 搭建 一 个 自动 文摘 系统 还 是 需要 开发 很 多 新 的 资源 。 

最 后 ， 我 们 给 出 了 一 个 数据 集 列表 ， 这 些 数据 可 以 让 我 们 为 英语 以 外 的 语言 开发 和 训 
练 我 们 上 自己 的 目 动 文摘 系统 。 
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13. 1 概述 和 历史 


问答 系统 能 从 信息 库 中 检索 到 用 户 所 需 的 答案 。 大 多 数 传统 信息 检索 系统 采用 关键 词 
的 搜索 范式 。 比 起 单纯 使 用 关键 词 的 搜索 ， 问 答 系 统 用 自然 语言 提问 的 方式 ， 更 加 直观 ， 
表达 也 更 清晰 。 除 此 之 外 ， 信 息 检索 系统 以 文章 或 文档 的 形式 回复 用 户 的 查询 ， 而 问答 系 
统 则 能 提供 既 准确 又 切合 主题 的 答案 。 利 用 网 络 获得 的 信息 源 通常 是 巨大 的 、 宛 余 的 ， 也 
是 最 新 的 。 高 级 检索 技术 使 用 本 地 文本 语料库 进行 检索 。 这 种 技术 要 求 信息 源 必须 是 预先 
加 工 过 的 ， 并 且 只 限制 在 特定 领域 (比如 医疗 、 法 律 或 内 网 数据 )， 在 评测 方面 则 要 求 结 
果 是 可 以 比较 的 并 且 可 重复 生成 的 。 

近来 研究 最 火热 的 问题 类 型 是 事实 型 问题 ， 如 命名 实体 类 的 问题 就 寻求 精确 的 答案 
(例如 ， 土 耳 其 的 首都 是 什么 ) 。 列 表 型 问题 则 找到 这 类 事实 性 问题 的 答案 列表 。 CDI. 
北大 西洋 公约 组 织 包 括 哪些 国家 ?) 研究 者 尝试 处 理 具有 复杂 答案 的 问题 ， 比 如 定义 性 问 
题 、 关 系 问题 和 观点 问题 。 其 中 定义 性 问题 要 求 系统 给 出 特定 话题 的 信息 ， 人 物 传记 也 包 
插 在 内 ， 例 如， 爱 因 斯 坦 是 谁 ? 关系 问题 ， 比 如 塔利班 和 基地 组 织 的 关系 是 怎样 的 ? 观点 
问题 ， 比 如 人 们 中 意 宜家 家 居 的 什么 ? 本 章 我 们 主要 关注 那些 用 于 事实 型 问答 系统 的 方法 
和 算法 ， 也 可 以 使 之 适用 于 回答 列表 型 问题 。 事 实 型 问题 适用 于 阐释 现代 问答 系统 的 原 
理 ， 用 于 事实 型 问答 系统 的 算法 解决 方案 和 评测 方法 与 解决 具有 复杂 答案 问题 的 系统 相 比 
更 加 成 熟 。 参 见 13. 11 节 中 关于 其 他 问题 类 型 的 介绍 。 

问答 系统 主要 的 挑战 是 自然 语言 的 灵活 性 、 丰 富 性 和 模糊 性 ， 这 些 都 导致 问题 中 包含 
的 信息 和 文本 的 答案 经 常 不 匹配 。 尽 管 简单 的 关键 词 匹 配 可 以 成 功 地 识别 许多 问题 的 正确 
答案 ， 但 是 具备 常识 和 逻辑 推理 的 能 力 都 是 不 可 少 的 ， 比 如 在 RTE (识别 文本 蕴涵 〉 任 
务 中 开发 的 技术 [1]j。 另 外 的 挑战 来 自 于 时 间 表 达 和 了 陈述， 它们 具有 时 间 上 的 敏感 性 。 当 
回答 类 似 这 种 问题 “Which car manufacturer has been owned by VW since 1998?” 的 时 候 
会 遇 到 一 些 困 难 。 比 如 1998 年 的 报纸 文章 中 只 包含 了 短文 Volkswagen today announced 
the acquisition of Bentley。 为 了 能 够 识别 出 正确 答案 ， 问 答 系 统 必 须 明 确 Volkswagen 和 
VW 指 代 同一 实体 ， 而 且 Bentley 是 car manufacturer。 同 时 也 需要 推断 出 acquisition 表示 
ownership 的 意思 ， 时 间 表 达 today 与 1998 是 一 致 的 。 

进一步 说 ， 在 单一 的 文件 里 可 能 没 法 找到 问题 的 答案 ， 在 这 种 情况 下 ， 将 多 个 资源 中 
的 信息 相 结合 就 变 得 十 分 必要 了 。 比 如 像 这 样 的 问题 : 索尼 公司 总 部 设立 在 哪个 国家 ? 尽 
管 在 文件 中 没有 明确 指出 索尼 总 部 位 于 日 本 ， 但 两 个 独立 的 文件 可 能 提 到 总 部 在 东京 KR 
京 又 是 日 本 的 一 座 城 市 。 另 外 一 种 情况 是 将 一 个 问题 分 割 成 多 个 子 问题 ， 最 后 的 答案 由 这 
些 子 问 题 的 答案 构成 。 例 如 ,“ 哪 一 个 国家 赢得 足球 世界 杯 和 欧洲 杯 桂冠 ?? 这 个 问题 的 答 
案 是 这 两 次 比赛 结果 的 交集 。 
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问答 系统 的 研究 可 追溯 到 20 世纪 60 年 代 ， 一 些 专 家 系统 在 受 限 领 域内 得 以 发 展 
[2]. BASEBALL 系统 [3] 设计 用 来 回答 有 关 美 国 棒球 联盟 的 问题 ，LUNAR 系统 [4] 
则 提供 阿波 罗 号 从 月 球 带 回 的 一 些 岩 石 样本 的 回答 。 这 两 个 系统 都 依赖 于 结构 化 知识 源 ， 
这 些 结构 化 知识 源 是 由 相关 的 领域 专家 人 工 构 建 的 ， 它们 还 不 太 容 易 拓 展 到 更 普遍 的 领 
域 。 一 些 早期 的 自然 语言 对 话 系 统 也 包含 了 基本 的 问答 功能 。 比 如 ， 由 Winograd [5] F 
发 的 SHRDLU 系统 可 以 处 理 玩具 领域 的 自然 语言 对 话 ， 这 个 领域 包括 少数 的 物体 ， 用 户 
可 以 与 该 系统 对 话 来 操控 它 或 探寻 关于 世界 的 各 种 状态 。 问 答 系 统 另 外 一 个 早期 的 应 用 为 
f& QUALM [6] 这 样 的 阅读 理解 系统 ， 该 系统 可 以 加 工 一 篇 文章 ， 并 回答 有 关 它 内 容 的 
问题 。 这些 系统 都 不 再 依赖 于 手工 的 知识 库 ， 但 是 限制 在 一 个 相当 狭小 的 领域 。20 世纪 
90 年 代 是 一 个 转折 点 ， 开 放 领 域 的 问答 系统 MURAX [7] 几乎 可 以 回答 非 结 构 化 文本 中 
有 关 任 何 话题 的 问题 ， 它 使 用 了 在 线 百 科 知 识 回答 有 关 一 般 常 识 的 事实 型 问题 。 

英语 问答 研究 的 主要 动力 在 于 一 年 一 度 的 评测 。 这 项 评测 开始 于 1999 年 ， 由 文本 检 
索 会 议 (Text REtrieval Conference, TREC) 创办 8]j]。 参 评 系统 基于 新 闻 专 线 语 料 库 和 
其 他 非 结 构 化 文档 集合 来 回答 事实 类 、 列 表 型 、 定义 类 和 关系 类 问题 。2008 年 问答 系统 
转 到 了 文本 分 析 会 议 (Text Analysis Conference, TACO[9]. Æ AMZ Ss sp amp. P 
语言 评测 论坛 (Cross-Language Evaluation Forum, CLEF》〉 为 其 他 欧洲 语言 [10] 建立 了 
一 个 类 似 的 评测 平台 ，NTCIR (NII Test Collection for IR Systems) 研讨 会 每 年 为 亚洲 请 
言 [11] 举办 一 个 相似 的 评测 平台 。TREC 和 TAC 关注 单一 语言 的 问答 任务 ， 并 且 问 题 
和 信息 源 都 是 英文 的 。CLEF 和 NTCIR 还 引入 了 路 语言 的 任务 ， 即 问题 语种 和 所 给 资源 
的 语种 不 同 。 

如 今 许 多 问答 系统 都 提供 网 络 接 口 ， 并 且 可 以 进行 在 线 测试 。 这 些 系统 包括 由 有 麻 省 理 
工大 学 开发 的 START ZAO., ASK. com 系统 和 Wolfran Alpha9 系统 。 微 软 与 谷歌 都 把 
基本 的 问答 系统 性 能 融合 进 搜索 引 警 。 近 年 来 ， 两 个 TREC 的 早先 系统 ， 卡 内 基 梅 隆 大 学 
的 OpenEphyra® 系统 和 麻 省 理工 大 学 的 Aranea® ， 都 进行 了 开源 ， 并 提供 下 载 。 


13.2 ”架构 


在 近 几 年 虽然 许多 QA 架构 被 采用 ,但 QA 系统 绝 大 部 分 是 基于 一 套 核心 流水 线 ， 包 
括 问题 分 析 、 查 询 生 成 、 搜 索 、 候 选 答案 生成 以 及 答案 打分 等 组 件 。 问 题 分 析 组 件 使 用 一 
些 技 术 从 问题 中 挖掘 句法 和 语义 信息 ， 这 些 技术 包括 答案 类 型 分 类 ， 句 法 和 语义 分 析 以 及 
实体 命名 识别 。 在 查询 生成 阶段 ， 信 息 就 被 转化 成 一 个 搜索 查询 的 集合 ， 会 有 不 同 程度 的 
查询 扩展 ， 这 些 查 询 被 传递 给 搜索 组 件 以 从 知识 源 中 检索 所 需 的 信息 。 搜 索 结 果 由 候选 答 
案 生成 组 件 进行 加 工 ， 得 出 或 提取 所 需 粒 度 的 候选 答案 〈 比 如 事实 型 问题 或 者 定义 性 问 
BD. 。 回 答 评分 组 件 为 上 个 步骤 得 到 的 答案 进行 评估 ， 并 且 通 常会 合并 相似 的 候选 答案 。 
在 这 个 阶段 ， 知 识 源 可 以 重用 来 为 各 个 候选 答案 提供 证 据 ， 最 后 得 出 的 结果 是 一 系列 按照 
置信 和 度 排名 的 答案 。 

图 13-1 描述 了 这 个 典型 架构 ， 并 通过 例子 展示 了 如 何 处 理 一 个 句子。 在 文本 格式 中 
tA A: Which computer scientist invented the smiley? 在 这 个 简单 的 例子 中 ，QA 组 件 决定 


http: / /start. csail. mit. edu/。 

http://www. woldramalpha. com/ , 

http: //sourceforge. net/projects/openephyra/ 。 

http://www. umiacs. umd, edu/~jimmylin/downloads/ Aranea-rl. 00. tar. gz. 
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了 这 个 问题 是 要 查找 类 型 为 computer scientist 的 答案 ， 并 提取 关键 词 invented 和 smiley. 
查询 生成 组 件 通过 答案 类 型 与 提取 的 关键 词 为 搜索 引擎 构建 一 个 查询 。 有 了 这 种 查询 ， 搜 
索 组 件 检 索 丛 文本 语料库 〈 如 Web) 中 检索 出 段落 ， 如 图 13-1 所 示 。 在 候选 生成 阶段 ， 
命名 实体 作为 候选 答案 被 提取 出 来 。 最 后 ， 回 答 评 分 组 件 使 用 一 些 特征 来 估计 每 个 候选 的 
可 信 分 值 ， 这 些 特 征 包 括 检索 排序 、 在 搜索 结果 中 候选 出 现 的 数量 ， 以 及 与 预测 的 答案 类 
型 是 否 匹 配 。 得 分 最 高 的 候选 Scott E. Fahlman 作为 最 有 可 能 的 答案 被 返回 。 


"Which computer scientist 
invented the smiley?" 


问题 类 型 computer scientist 
关键 字 : invented, smiley 


"computer scientist" invented smiley 


The two original text smileys were 
invented on September 19, 1982 
by Scott E. Fahlman at Carnegie 
Mellon. 


* September 19, 1982 
* Scott E. Fahlman 
* Carnegie Mellon 


答案 得 分 
Scott E. Fahlman 0.9 
Carnegie Mellon 0.4 
September 19, 1982 0.3 


图 13-1 典型 的 QA 架构 CAO 以 及 问题 示例 的 处 理 流 程 〈 右 ) 





大 多 数 问答 系统 原则 上 遵循 这 一 典型 架构 ， 虽 然 有 些 系统 引信 一 些 变 化 ， 包 含 额外 的 
组 件 或 改变 系统 组 件 之 间 的 流向 。 例 如 ，Harabagiu 等 人 [12] 在 他 们 的 系统 架构 中 引入 
反馈 循环 ， 从 而 可 以 轮流 尝试 多 个 策略 ， 例 如 当前 面 更 精确 的 策略 失败 时 采用 具有 较 高 的 
召回 率 策略 。START 间 答 系统 [13] 与 典型 的 QA 架构 不 同 ， 它 分 解 复 杂 的 问题 并 以 髓 
套 的 方式 回答 。 例 如 ，Where was the 20th U.S. president born? 可 以 这 样 回答 ， 先 检索 
总 统 的 名 字 (ames A. Garfield)， 然 后 使 用 此 信息 来 找到 他 的 出 生地 (Orange Town- 
ship)。 最 后 ， 现 代 问 答 系 统 对 于 一 个 问题 往往 采用 多 策略 的 方法 来 回答 ， 其 中 几 个 独立 
的 算法 并 行 运 行 再 将 其 结果 合并 (比如 Chu-Carroll 等 [14], Nyberg 等 [15.])。 这 种 并 
行 方法 计算 代价 可 能 非常 高 ， 但 它 也 被 证 明 是 非常 有 效 的 ， 因 为 多 个 组 件 可 以 相互 补充 和 
加 强 ， 所 以 最 终 决 定 能 被 推迟 到 所 有 的 执行 路 径 的 结果 都 是 已 知 的 之 后 。 

QA 系统 通常 依赖 于 现 有 的 信息 检索 引擎 来 搜索 本 地 文件 集 或 网 络 ， 以 获得 相关 文档 
或 段落 。 因 此 ， 问 题 分 析 组 件 和 查询 生成 组 件 可 以 看 作 是 将 自然 语言 问题 转变 为 抽象 的 查 
询 集 的 预 处 理 阶 段 ， 这 些 查询 可 用 于 潜在 的 搜索 引擎。 候选 生成 组 件 和 答案 评分 组 件 可 以 
视 为 从 搜索 结果 中 生成 准确 回答 的 后 处 理 阶 段 。 此 处 我 们 集中 于 这 种 基于 搜索 的 问答 方 
式 。 注 意 ， 有 一 些 不 需要 传统 文本 搜索 的 系统 。 比 如 ，Clifton 和 Teahan [16] 从 文本 资 
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源 中 自动 提取 知识 关系 并 将 其 存储 在 知识 库 ， 更 近 一 些 的 是 Wolfram Alpha 系统 采用 人 类 
建造 的 知识 库 作 为 答案 源 。 在 运行 时 ，QA 系统 将 问题 与 知识 库 中 的 项 匹配 ， 而 不 是 在 非 
结构 化 的 文本 中 进行 搜索 。 | 

这 里 概述 的 QA 架构 大 部 分 都 是 不 受 语 言 限制 的 ， 亚 洲 语言 和 除 英语 外 的 欧洲 语言 的 
系统 都 采用 相似 的 架构 。 而 且 也 有 一 些 系 统 可 以 用 于 其 他 语言 ， 只 需要 在 流水 线 布 局 上 做 
少量 改变 。 例 如 ，JAVELIN 系统 [17] 最初 是 为 英语 开发 的 ， 后 来 被 应 用 于 中 文 和 日 语 。 
然而 ， 潜 在 的 跨 语言 的 自然 语言 处 理工 具 ， 如 分 词 和 命名 实体 识别 、 句 法 分 析 器 可 能 随 不 
同 语言 有 明显 的 不 同 ， 对 一 种 语言 是 微不足道 的 任务 在 另 一 中 语言 却 可 能 是 具有 挑战 性 
的 。 比 如 ， 分 词 在 英语 中 具有 高 精确 度 ， 但 在 日 语 和 中 文中 就 十 分 困难 ， 因 为 单词 之 间 缺 
少 空格 。 此 外 ， 尽 管 英 语 有 丰富 、 公 开 的 自然 语言 处 理工 具 ， 但 其 中 的 一 些 核 心 技术 在 其 
他 语言 中 是 不 可 用 或 不 准确 的 。QA 系统 开发 者 必须 用 相关 语言 中 可 行 的 算法 实例 化 流水 
线 中 的 每 个 组 件 ， 以 适应 这 些 差异 。 

在 跨 语 言 问答 系统 (参见 13.7 节 ) 中 ， 在 问答 架构 中 纳入 翻译 步骤 成 为 必要 。 最 常见 的 
是 ,在 QA 组 件 中 的 问题 或 查询 项 翻译 为 源 语言 。 另 外 ， 整 个 源 可 以 作为 离线 预 处 理 步骤 被 翻 
译 到 问题 语言 ， 在 这 种 情况 下 ， 流 水 线 不 需要 修改 ， 但 本 质 上 还 是 与 单 语 QA 系统 一 样 。 

下 面 ， 我 们 讨论 建立 相关 源 的 材料 的 离线 处 理 步 又 (参见 13. 3 节 )， 然 后 更 详细 地 描 
R QA 流水 线 的 每 个 阶段 (参见 13. 4 一 13. 6 节 )。 虽 然 这 些 章节 提出 的 大 部 分 算法 和 技术 
适用 于 各 种 语言 ， 但 我 们 仍 指出 了 这 些 方 法 因 语 言 不 同 而 影响 可 行 性 和 有 效 性 的 差异 。 


13.3 源 获取 和 预 处 理 


互联 网 提供 了 数量 最 多 、 范 围 最 广 和 最 新 的 文本 数据 ， 因 此 问答 系统 广泛 利用 了 互联 
网 信息 。 但 是 ， 使 用 更 小 的 本 地 可 用 资源 也 有 一 定 的 优点 。 虽 然 Web 搜索 引擎 的 算法 细 
节 是 未 知 的 ， 但 信息 检索 系统 可 以 对 本 地 资源 进行 索引 ， 这 样 可 以 让 开发 人 员 对 检索 算法 
和 搜索 结果 有 完整 的 掌控 。 另 外 ，Web， 如 用 现存 的 搜索 引擎 搜索 ， 只 能 原样 使 用 ， 而 本 
地 可 用 资源 可 进行 预 处 理 、 增 强 、 并 扩充 有 用 信息 。Web 内 容 、Web 搜索 引擎 用 到 的 特征 和 
算法 都 会 随 着 时 间 的 变化 而 变化 ，Web 的 评价 结果 往往 不 具备 可 比 性 或 可 重 现 性 。 因 此 ， 如 
TREC, TAC, CLEF, NTCIR 中 的 QA 任务 的 比较 评测 ， 都 采用 静态 的 参考 语料库 ， 尽 管 
额外 的 资源 ， 例 如 Web 也 允许 被 随意 使 用 。 实 际 应 用 中 ，QA 使 用 的 技术 还 需要 具备 快速 的 
响应 时 间 和 高 可 用 性 ， 这 样 会 使 实时 Web 搜索 和 随后 检索 相关 网 站 变 得 不 可 能 。 如 果 知 识 领 
域 含 有 不 能 被 显示 在 Web 上 的 机 密 数据 或 专业 知识 ， 那 么 就 需要 本 地 的 索引 和 检索 。 

可 以 通过 对 知识 领域 的 分 析 而 选择 初始 的 资源 集 。 人 例如， 新闻 语料库 对 诸如 政治 事 
件 、 经 济 、 体 育 等 问题 来 说 ， 是 一 个 有 用 的 资源 ; 百科 全 书 良 好 地 覆盖 了 有 关 和 常识 和 知名 
实体 的 问题 ; 博客 资源 可 以 用 来 处 理 意见 问题 。 信 息 资 源 的 可 用 性 很 大 程度 上 取决 于 语言 
的 种 类 ， 英 语 QA 系统 中 频繁 使 用 的 一 些 资源 可 能 在 其 他 语言 中 使 用 得 不 广泛 ,或 者 不 存 
在 。 比 如 QA 系统 普遍 利用 的 在 线 资源 ， 例 如 维基 百科 ， 则 主要 在 英国 使 用 。 如 果 发 现 相 
关 资 源 在 开发 集 上 可 以 提高 搜索 性 能 ， 则 这 些 资源 可 以 逐步 增加 到 QA 系统 中 ， 但 需要 注 
意 的 是 ， 如 果 在 小 样本 问题 上 选择 资源 ， 可 能 会 导致 过 拟 合 。 

文本 文件 集合 被 索引 之 前 ， 通 常 需 要 一 系列 的 预 处 理 步 又 。 首 先 ， 大 多 数 的 问答 系统 
会 把 字符 转换 成 统一 的 编码 方式 并 且 替 换 符 号 、 外 文字 符 ， 也 即 对 文本 进行 规范 处 理 。 这 
是 改善 搜索 结果 的 一 个 必要 步骤 ， 以 便于 相似 答案 的 合并 ， 并 支持 基于 答案 (answer 
key) 的 自动 评测 。 此 外 ， 低 质量 的 源 ， 如 抓 取 得 到 的 网 页 ， 可 能 需要 进一步 处 理 ， 包 括 
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ERRE (比如 不 支持 语言 的 广告 、 文 本 ) 和 校正 拼写 。 接 下 来 ,文档 往往 被 分 割 成 句子 
来 支持 单个 句子 、 句 子 边 界 对 齐 的 段落 的 检索 。 根 据 源 语言 种 类 ， 可 以 进一步 把 句子 分 割 
成 单词 或 者 更 小 的 文本 单元 ， 例 如 词素 、 字 符 2 元 组 或 者 单个 字符 。 在 英语 和 其 他 欧洲 语 
言 中 ， 词 通常 用 于 索引 和 检索 的 基本 文本 单元 。 通 常 需要 把 词语 进行 词 干 化 来 提高 系统 召 
回 率 并 减少 索引 量 ， 但 这 也 会 导致 多 义 词 的 错误 匹配 。 

FEA XH QA 系统 中 ， 文 本 通常 被 切 分 成 词素 。 因 为 缺少 单词 之 间 的 空格 ， 所 以 日 文 
分 词 比 较 困 难 ， 但 是 使 用 统计 方法 例如 序列 模型 ， 可 以 相对 有 效 地 完成 这 一 任务 [18]. 
通常 ， 一 句 话 中 包含 多 种 字符 类 型 的 文字 ( 片 假 名 、 平 假名 、 汉 字 )， 那 么 字符 类 型 间 的 
变化 可 以 对 边界 (识别 ) 提供 有 用 的 线索 。 一 些 日 文 QA 系统 也 对 单个 字符 或 者 字符 2 元 
组 进行 索引 ， 这 样 可 以 提高 系统 召回 率 ， 但 是 也 会 为 搜索 结果 引入 更 多 噪声 。 目 前 ， 还 没 
有 确定 哪 种 方法 效果 最 好 。 中 文 的 词语 也 缺乏 空格 分 隔 ， 而 且 在 一 个 文档 中 通常 只 包括 一 
种 字符 类 型 ， 这 就 导致 对 于 未 在 词典 中 出 现 的 词语 的 识别 和 分 隔 比 较 困 难 。 因 此 尽管 目前 
中 文 分 词 [19] 技术 的 提高 ， 使 得 系统 支持 词语 级 别 的 索引 ， 但 大 多 数 的 中 文 QA 系统 都 
在 字符 级 别 进行 索引 和 检索 。 

少量 系统 对 源 文本 进行 共 指 消解 〈 也 称 为 指 代 消解 )。 篆 见 的 指 代 类 型 是 指 回 文本 前 
面 提 到 过 的 命名 实体 的 代词 和 名 词 。 例 如 ,代词 “he” 可 能 代表 一 个 特定 的 人 ， 名 词 
“city” 可 能 代表 前 面 提 到 的 一 个 特定 的 城市 。 共 指 消解 能 确保 相关 术语 的 出 现 位 置 接近 ， 
从 而 改善 段落 的 搜索 ， 但 这 需要 足够 精确 的 算法 。Hickl A [20」 采 用 保守 的 方法 ,使 
用 局 发 式 方法 解决 代词 和 名 词 的 共 指 问题 。 此 外 ， 包 含 时 间 约 束 的 问题 的 回答 性 能 ， 可 以 
通 规 范 化 问题 和 源 中 的 时 间 表 示 提 高 。 例 如 Moldovan, Clark, Bowden [21] 报告 说 ， 他 
们 的 系统 把 诸如 “annually” 和 “each year” 之 类 的 表达 替换 为 规范 型 (canonical form) 
这 样 使 得 系统 在 回答 “How many grants does the Fullbright Program award each year" [a] 
题 时 ， 可 以 检索 出 包含 “Fulbright awards approximately 4500 new grants annually" 的 候 
选段 落 。(TREC 16, Question 249. 5) 

一 些 信 息 资 源 提供 了 可 以 被 QA 系统 利用 的 元 数据 (metadata) 这 些 元 数据 也 可 以 用 
到 QA 系统 的 多 种 处 理 流 程 中 。 例 如 ， 查 询 术 语 的 扩充 可 以 利用 维基 百科 内 部 链接 的 锚 文 
本 和 文章 的 自动 重 定向 提供 的 相关 概念 ， 这 样 可 以 提高 搜索 召回 率 [22，23]j。 此 信息 也 
可 以 在 问答 评分 时 ， 用 于 合并 和 加 强 相似 的 候选 [24]. 

通常 利用 多 种 类 型 的 句法 和 语义 标注 对 源 进 行 标注 ， 例 如 词性 、 命 名 实体 类 别 、 实 体 
关系 。 如 果 这 些 标 注 信 息 合 并 到 索引 项 中 ， 就 可 以 提供 额外 的 信息 明确 表示 更 多 的 约束 碍 
询 ， 进 而 提升 搜索 效果 。 词 性 和 命名 实体 信息 可 以 由 检索 组 件 利用 ， 以 确保 查询 与 句法 或 
语义 相符 的 问题 术语 项 实例 进行 匹配 。 例 如 ， 如 果 问 题 是 关于 “Washington” 城 市 ， 那 么 
提 到 “Washington” 总 统 的 信息 是 不 相关 的 而 且 不 应 该 被 检索 。 此 外 ， 可 以 把 搜索 限制 为 
包含 希望 得 到 的 答案 类 型 的 段落 。 这 种 方法 可 以 减少 搜索 结果 中 的 噪声 ， 但 是 ， 如 果 命 名 
实体 识别 的 召回 率 不 高 ， 那 么 相关 段落 可 能 会 被 错过 。 

句法 和 语义 关系 还 可 以 用 来 制定 更 精确 的 查询 。 例 如 ， 在 回答 “Which companies did 
Sun Microsystems acquire?” 时 可 以 限定 句法 约束 :“Sun Microsystems” Æ “acquire” W 
主语 而 不 是 它 的 直接 宾语 ， 以 避免 检索 到 讨论 Oracle 收购 Sun 内 容 的 段落 。 在 语义 层面 ， 
可 以 用 Sun 是 acquisition 的 施 事 而 不 是 受 事 ， 对 搜索 进行 约束 。Prager 等 人 [25 | A 
Moldovan 等 人 [26 ] 将 命名 实体 类 型 的 信息 合并 到 搜索 索引 中 ， 以 增加 搜索 结果 的 相关 
性 。Tiedemann [27 | 在 荷兰 语 的 段落 检索 中 利用 了 多 层 标 注 信 息 。 用 句法 依存 分 析 寓 人 处 
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理 句子 并 扩充 了 词类 、 句 法 关系 、 命 名 实体 标签 和 复合 词 (compound term) 。 利 用 这 些 额 
外 的 信息 层 的 查询 在 很 多 CLEF 问题 上 的 性 能 要 优 于 基于 关键 词 的 方法 。Bilotti 等 人 
[28] 在 新 闻 语 料 库 上 进行 了 分 句 、 语 义 分 析 、 命 名 实体 识别 的 预 处 理 。 这 些 标注 信息 用 
于 表述 查询 项 的 语义 角色 和 命名 实体 类 型 约束 的 结构 化 查询 。 在 TREC 数据 上 的 实验 表 
明 ， 绪 构 化 的 查询 相 比 基于 关键 词 的 查询 ， 能 够 检索 到 更 多 排名 很 高 的 相关 文档 。13. 5. 1 
节 我 们 在 搜索 组 件 的 讨论 中 ， 将 给 出 结构 化 查询 的 例子 。 

除了 对 搜索 性 能 的 潜在 影响 ， 源 语料库 的 预 标注 可 以 在 运行 时 减少 相当 大 的 计算 成 
本 。 在 13. 5. 2 节 我 们 讨论 的 候选 答案 提取 的 结构 化 匹配 方法 中 ， 这 些 结 构 化 信息 依赖 于 
对 问题 和 语料库 中 的 句子 进行 句法 或 者 语义 分 析 。 虽 然 预 处 理 语 料 的 手段 为 这 些 技 术 带 来 
了 很 大 的 效果 提升 ,但 只 有 在 具备 大 规模 并 行 硬 件 或 者 响应 时 间 不 是 重点 的 前 提 下 ， 预 处 
理 才 是 可 行 的 。 例 如 ，Cui SEA [29] 为 源 预 标注 命名 实体 类 型 和 句法 依存 树 以 在 运行 时 加 
速 他 们 的 候选 提取 算法 。 男 一 方面 ， 大 型 文件 集 标注 的 计算 代价 很 高 ， 并 且 新 源 的 集成 是 费 
时 和 繁琐 的 。 此 外 ， 每 当 标 注 方案 或 算法 改变 时 ， 标 注 必 须 更 新 ， 搜 索索 引 必 须 重 建 。 

经 过 预 处 理 的 文档 可 以 被 IR 系统 索引 ， 如 Indri? 和 Lucene? 都 是 可 用 的 开源 软件 。 
这 些 系统 主要 是 为 了 处 理 英 文 而 开发 ， 但 是 也 适用 于 其 他 的 语言 ， 因 为 它们 支持 任意 通过 
空格 分 隔 的 词 元 流 ， 这 些 词 元 可 以 是 词语 、 词 素 或 者 单独 的 字符 。 预 处 理 阶 段 提 取出 的 结 
构 化 信息 ， 如 实体 之 间 的 关系 ， 通 常 存储 在 知识 库 中 ， 以 支持 答案 的 快速 和 精确 查找 ( 参 
WW 18.5) Y, 


13.4 问题 分 析 


问题 分 析 阶 段 使 用 多 种 核心 技术 来 抽取 问题 的 信息 ， 这 些 信息 用 于 提供 给 下 游 组 件 。 通 
常 ， 需 要 识别 查询 串 中 的 关键 术语 和 短语 ， 以 便 搜 索 组 件 在 原文 中 检索 出 相关 的 文档 和 文本 
段落 。 拥 有 很 少 或 没有 语义 信息 的 功能 词 (例如 ， 冠 词 、 代 词 、 连 词 、 助 动词， 通常 被 丢 
弃 。 复 合 词 如 “pass away”, “computer science", “leave of absence”， 通 过 查找 字典 和 本 体 
库 ， 如 WordNet [30] 和 FrameNet [31, 32] 可 以 识别 。 大 多 数 系统 也 利用 命名 实体 识别 工 
具 库 ， 识 别 常见 类 型 的 实例 ， 如 人 和 名、 地 名 、 数 字 。 

另外 ， 往 往 利用 句法 和 浅 层 语义 分 析 器 分 析 问 题 ， 并 转换 成 结构 化 的 表示 形式 。 从 问题 中 
提取 的 结构 信息 可 以 在 搜索 阶段 表述 更 精确 的 查询 ， 并 在 候选 提取 时 确保 候选 答案 同 问 题 中 提 
到 的 实体 的 关系 一 致 。 在 13. 5. 2 节 候 选 抽取 的 结构 化 匹配 讨论 中 ， 我 们 对 句法 和 语义 表示 的 性 
质 进 行 更 详细 的 阐述 。 

大 多 数 事 实 型 QA 系统 的 问题 分 析 阶 段 所 涉及 的 关键 功能 是 对 答案 类 型 进行 分 类 ， 即 
预测 用 户 期 望 得 到 的 答案 类 型 ， 答 案 类 型 集合 通常 在 事前 已 被 定义 。 例 如 ， 问 题 “Who 
invented the light bulb?” 对 应 的 答案 是 一 个 人 ,然而 问题 “How many people live in 
Bangkok?" 寻求 的 回答 是 一 个 数字 。 搜 索 组 件 利用 答案 类 型 作为 约束 ， 只 对 包含 该 预测 
类 型 实例 的 文本 段落 进行 搜索 。 候 选 结 果 抽 取 组 件 也 只 识别 类 型 一 致 的 实例 作为 候选 回 
答 ， 或 者 在 回答 评分 阶段 提升 相同 类 型 的 候选 回答 的 排名 。 

有 些 问 题 期 望 得 到 更 加 具体 的 答案 类 型 (比较 “In which city is the Colosseum?" 与 
“Where is the Colosseum?”) ， 为 了 支持 不 同 的 分 类 粒度 ， 这 些 类 型 通常 被 组 织 成 本 体 库 。 


© https://www. lemurproject. org/indri/ 。 
©  http://lucenu. apache. org/ 。 
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一 个 类 型 本 体 库 的 例子 如 图 13-2 所 示 。 典 型 地 ，QA 系统 的 开发 者 会 手工 构建 本 体 库 ， 它 


也 反映 了 构建 者 希望 系统 所 处 理 领 域 的 深度 和 广度 。 在 开放 领域 的 TREC QA 任务 中 ， 参 与 
者 采用 几 十 个 或 者 最 多 几 百 个 类 型 的 本 体 库 ， 以 便 涵 盖 这 些 评 测 中 的 大 部 分 问题 (33, 34]. 


Entity 


Creature Organization Event Numerical 4 
ils Company Competition Number 
Educational Conflict | Cardinal 
na Political Festival Ordinal 
Date 
Size 
"a 
"a | Length 
Area 


Scientist Volume 


图 13-2 答案 类 型 本 体 库 实例 


答案 类 型 分 类 响 可 以 为 简单 的 正则 表达 式 集合 ， 其 中 每 个 表达 式 都 同 本 体 库 中 的 一 个 
类 型 关联 ， 并 匹配 寻求 此 答案 类 型 的 问题 。 可 以 在 给 定 开发 集 上 通过 去 除 问 题 中 的 不 相关 
词 元 ， 并 匹配 剩 下 的 词汇 和 句法 变化 ， 进 而 构造 出 匹配 模式 串 。 表 13-1 给 出 了 例子 。 这 
个 方法 很 容易 实现 ， 而 且 处 理 模板 规定 的 问题 类 别 时 效果 很 好 。 为 了 达到 更 好 的 泛 化 能 
力 ， 需 要 根据 问题 的 词汇 和 句法 特性 设计 更 通用 的 分 类 规则 ， 或 者 在 人 工 标注 的 问题 / 答 
案 类 型 对 上 ， 构 造 统 计 模 型 拟 合 这 些 特 征 ， 并 且 基 于 这 些 特征 对 问题 类 型 做 预测 。 


| 表 13-1 问题 答案 类 型 表达 式 实例 
答案 类 型 正则 表达 式 


公司 (what | which) (company | corporation) 

日 期 (when | on which date) 

长 度 how (long | tall | deep) 

地 点 (where | which (place | spot | site)) 

数字 (how many | what (is | was) the number) 
作者 (what | which) (author | writer | novelist) 


在 这 两 种 方法 中 ， 问 题 的 焦点 词 (focus word) 是 决定 答案 类 型 的 重要 指示 (例如 ， 
问题 “Which country is the largest in population?” 中 的 “country” 或 者 “Who invented 
the light bulb” 中 的 “Who”) 。 通 过 句法 分 析 可 以 相当 容易 地 得 到 问题 的 焦点 词 ， 进 而 可 
以 把 问题 类 型 通过 人 工 映 射 规则 、 用 训练 数据 中 学 到 的 对 应 关系 、 利 用 外 部 资源 《例如 
WordNet [35，36]) 所 提供 的 同义词 和 上 位 词 信息 ， 上 映射 到 静态 的 本 体 库 中 。 为 了 保证 
答案 类 型 分 类 器 涵盖 更 广泛 的 类 型 ， 在 上 述 例子 中 ， 需 要 把 "company". “corporation” 
和 “enterprise” 都 映射 到 本 体 库 的 答案 类 型 “company” 中 。 另 外 一 些 特征 ， 如 主动 词 及 
其 和 焦点 词 的 语法 关系 ， 也 可 以 预测 答案 类 型 。 例 如 ， 如 果 主 动词 是 “eat”， 直 接 宾语 是 
焦点 词 ， 那 么 这 个 问题 很 可 能 是 有 关 “food” 类 型 的 。 

尽管 基于 静态 类 型 本 体 库 的 QA 策略 相对 容易 实现 、 速 度 较 快 ， 并 且 在 过 去 的 QA iF 
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测 中 证 实 非常 有 效 ， 但 是 它们 也 有 很 大 的 局 限 性 。 通 和 常 问 题 类 型 的 分 类 是 一 个 艰难 的 决 
策 ， 当 给 定 了 一 个 错误 的 问题 类 型 后 ，QA 系统 通常 很 难 再 恢复 。 此 外 ， 静 态 类 型 系统 的 
覆盖 范围 有 限 而 且 可 能 不 够 具体 。 例 如 ， 对 于 问题 “What redhead made Bobbie Gentry's 
1970 song ‘Fancy’ a hit again in the 90s?” 的 中 心 词 是 “redhead”， 本 体 库 中 可 能 不 存在 
相应 的 条 目 和 命名 实体 。 作 为 替代 ， 系 统 必 须 采 用 更 一 般 的 类 型 ， 如 人 或 者 歌手 。 最 后 ， 
即使 正确 识别 出 回答 的 类 型 ， 下 游 组 件 有 效 利用 这 个 信息 的 能 力也 会 对 QA 系统 的 性 能 产 
生 影 响 。QA 系统 中 的 实体 识别 器 对 资源 进行 预 标注 、 产 生 预 期 类 型 的 候选 回答 ， 或 者 根 
据 类 型 匹配 对 候选 进行 打分 ， 这 些 任 务 在 精确 率 和 召回 率 上 都 是 不 完美 的 : 可 能 会 抽取 出 
类 型 错误 的 候选 回答 或 者 错过 预测 类 型 的 实例 。 例 如 ， 一 个 命名 实体 识别 器 会 把 “actor” 
类 型 错误 地 标注 成 一 个 其 名 字 为 actor 的 人 ， 这 样 就 识别 不 出 一 些 不 出 名 的 演员 。 

在 交互 式 QA 场景 中 ， 问 题 之 间 都 不 是 独立 的 ， 连 续 的 问题 可 能 存在 关联 和 相互 提 
及 。 这 个 情况 通常 发 生 在 同 真 人 的 对 话 场 景 中 ， 目 前 的 TREC 评测 任务 也 尝试 通过 一 些 形 
式 ， 对 这 个 场景 进行 建 模 ， 比 如 把 问题 按照 一 系列 共同 话题 进行 分 组 ， 或 者 引入 对 前 面 的 
问题 、 回 答 或 者 系列 主题 的 共 指 。 比 如 ,“In what city was the 1999 All-Star Game held?” 
的 下 一 个 问题 可 能 与 前 面 问题 形成 共 指 : “What is the name of the ballpark where the 
game was played?”， 或 者 与 前 面 问题 的 回答 形成 共 指 : "What is the seating capacity of 
the ballpark?” (TREC 15, Target 161) 。 为 了 有 效 处 理 这 些 依赖 关系 ，QA 系统 必须 在 抽 
取 问 题 的 关键 术语 和 结构 化 信息 前 ， 解 决 共 指 问题 。 一 系列 问题 下 的 共 指 (或 者 回 指 ) 问 
题 是 比较 难 的 ， 因 为 给 定 的 上 下 文 很 少 ， 而 且 TREC 的 大 部 分 系统 都 借助 于 启发 式 方法 处 
理 任 务 中 常见 的 共 指 问题 (如 Hickl 等 [20 D. 

因为 本 组 件 是 为 下 游 的 处 理 过 程 提供 分 析 结 果 ， 所 以 应 该 根据 分 析 结 果 的 准确 度 以 及 
下 游 模块 如 何 使 用 这 些 分 析 结 果 来 确定 分 析 的 类 型 。 为 了 构建 事实 型 QA 系统 ,一 般 采 用 
句法 分 析 器 识别 问题 的 中 心 词 ， 然 后 确定 回答 的 类 型 ， 也 会 使 用 命名 实体 识别 工具 确定 符 
合 预测 类 型 的 候选 回答 。 然 而 大 多 数目 前 效果 最 好 的 QA 系统 ， 也 包含 额外 的 分 析 过 程 ， 
如 共 指 消解 、 关 系 识别 、 语 义 分 析 。 这 些 组 件 是 现成 的 ， 而 且 在 英语 和 其 他 一 些 语言 〈 大 
部 分 是 欧洲 语言 ) 的 应 用 上 可 以 得 到 相当 准确 的 结果 ， 但 是 对 于 通常 研究 较 少 的 语言 是 有 
所 差别 的 。 是 否 采 用 这 些 工具 ， 其 他 组 件 依 赖 这 些 工具 的 结果 的 程度 ， 应 该 由 经 验 决 定 。 


13.5 搜索 及 候选 抽取 


现代 QA 系统 通常 检索 非 结构 化 数据 源 得 到 相关 文档 或 者 段落 集合 ， 同 时 也 使 用 命名 
实体 识别 工具 得 到 期 望 回答 的 类 型 ， 然 后 通过 对 问题 和 检索 得 到 的 文本 做 结构 对 齐 ， 或 用 
模式 串 匹 配 出 相关 的 子囊， 进而 抽取 出 候选 回答 集合 。 另 外 ， 经 常 出 现 的 问题 类 型 的 回 
答 ， 可 以 从 结构 化 或 者 已 经 存在 的 半 结 构 化 资源 中 抽取 ,或 者 利用 离线 预 处 理 Coffline 
preprocessing) 方式 事先 产生 ， 这 些 内 容 已 在 13. 3 节 中 介绍 。 本 节 介 绍 这 两 个 主要 的 候 
选 回 答 抽 取 方 法 。 因 为 现在 大 多 数 研究 集中 于 从 文本 源 中 提取 出 子 串 来 得 到 候选 回答 ， 而 
不 是 利用 从 源 文本 得 到 的 信息 合成 候选 回答 ， 所 以 我 们 把 候选 回答 抽取 技术 看 成 是 候选 回 
答 生 成 技术 的 特殊 情况 并 加 以 讨论 。 


13.5.1 非 结 构 化 资源 搜索 


在 给 出 问题 分 析 的 结果 后 ， 很 多 QA 系统 构造 一 个 或 者 多 个 查询 ， 并 在 非 结 构 化 文本 
的 索引 上 检索 出 相关 文档 集合 。 这 些 被 检索 出 来 的 文档 集合 一 般 用 于 为 接 下 来 的 系统 组 件 
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识别 并 评价 候选 回答 。 这 些 查询 的 构造 复杂 度 不 同 ， 可 以 为 简单 的 关键 词 ， 也 可 以 为 带 有 权 
重 和 位 置 限定 符 (proximity operator) 的 复杂 查询 ， 还 有 使 用 了 源 文 的 句法 和 语义 标注 信息 
的 结构 化 查询 (参见 13.3 节 )。 表 13-2 展示 了 问题 “When did Apple buy Coral Software?" 
(answer; 1989) 产生 的 查询 样 例 ， 这 些 查询 串 用 于 互联 网 搜索 google 和 局 部 搜索 Indri, 

关键 词 查 询 是 最 通常 的 做 法 ， 也 经 常 带 来 最 高 的 召回 率 ， 然 而 ， 结 构 化 查询 会 包含 更 
多 的 约束 ， 因 此 降低 了 误 报 率 。 但 是 ， 结 构 化 查询 的 效果 不 仅 取决 于 能 和 否 通过 问题 产生 正 
确 的 查询 ， 也 取决 于 参考 语料库 标注 的 精确 率 和 召回 率 。 例 如 ， 表 13-2 表明 ， 如 果 语 料 
库 上 的 关系 识别 运算 ， 只 能 从 类 似 “X bought Y” 的 语句 中 识别 出 “buy” 关 系 ， 那 么 表 
13-2 中 最 后 一 个 结构 化 查询 的 作用 就 很 有 限 。 相 反 ， 如 果 使 用 覆盖 率 更 广 的 关系 识别 工 
H, 可 以 从 “X paid $20M in stock options for Y" 中 识别 出 相同 的 关系 ， 那 么 ， 结 构 化 
查询 很 可 能 检索 出 一 些 不 太 复 杂 的 查询 所 漏 掉 的 相关 文档 。 因 此 ， 语义 丰富 的 查询 效果 ， 
很 大 程度 上 取决 于 识别 问题 和 语料库 语义 特征 的 组 件 的 准确 率 。 

X 13-2 ”对 问题 “When did Apple buy Coral Software?" 的 查询 


查 询 搜 索 Hi yk 

Apple buy Coral Software Google 简单 关键 词 查 询 

Apple buy“Coral Software” Google 要 求 短 语 Coral Software 出 现 

Apple buy OR purchase OR acquire "Coral Software" Google 相关 项 的 析 取 

Apple Indri 相关 项 较 少 权重 。 井 1 C..) 在 
# weight (l buy 0. 5 purchase 0. 3 acquire) Indri 中 等 价 于 Google 中 的 引号 
#1 (Coral Software) 
# combine [org] (Apple) Indri Appie 和 Coral Software 必须 
# weight (1 buy 0.5 purchase 0. 3 acquire) 在 源 文本 中 被 标注 为 机 构 Corg) 
& combine [org] (#1 (Coral Software)) 

# combine [sentence] (# any; date Indri 仅 当 包含 预 标注 的 日 期 才 检 索 
Apple buy Coral Software) 出 句子 

# combine [sentence] ( Indri 检索 包含 buy 事件 且 施 事 为 
& max (£& combine [target] (buy Apple. ZEA Coral 的 句子 


# max (i combine [. /arg0 | (Apple)) 
# max (£ combine [. / argl] (Coral))))) 


虽然 在 荷兰 语 和 英语 [27. 28] 的 QA 系统 中 ， 成 功 地 应 用 了 结构 化 查询 ， 但 效果 的 


提升 很 小 。Chu-Carrol 和 Prager [37] 提 到 ， 在 英文 文档 上 应 用 效果 最 好 的 命名 实体 和 关 
系 识 别 工 具 ， 能 提高 搜索 性 能 。 但 是 ， 因 为 搜索 性 能 对 于 这 些 分 析 工 具 的 准确 率 很 敏感 ， 
所 以 当 决 定 是 否 在 其 他 语言 上 采用 此 方法 时 ， 应 该 慎重 地 进行 实验 评估 。 此 外 ， 结 构 化 查 
询 需 要 进行 大 量 的 源 文本 预 处 理 ， 并 且 运 行 时 成 本 很 高 。 因 此 ， 关 键 词 查询 (有 时 结合 
重 、 位 置 限定 符 〉 是 现在 最 普遍 使 用 的 方法 。 

KBR QA 系统 检索 文档 集合 或 段落 集合 ， 其 中 段落 包含 一 个 或 者 多 个 句子 。 在 相同 
的 命中 列表 Chit list) KÆ [38] 下 ， 文 档 集合 检索 通常 比 段 落 检 索 得 到 的 召回 率 更 高 ， 
因为 答案 出 现 的 位 置 通常 不 会 离 查询 关键 词 很 近 。 一 个 常见 问题 就 是 回 指 ， 即 回 指 到 前 面 
句子 中 的 关键 词 或 者 文档 的 标题 。 在 日 文 和 中 文中 回 指 现象 特别 多 ， 因 为 倾向 于 采用 短 
句 ， 如 可 从 上 文中 推出 〈 零 回 指 )， 常 省 略 主语 和 宾语 。 另 一 方面 ， 如 果 分 析 搜 索 结 果 的 
时 间 成 本 很 高 ， 例 如 对 结果 做 语义 分 析 时 ， 对 段落 进行 处 理 则 更 加 高 效 。 查 询 关键 词 周围 
更 短 的 段落 也 会 产生 少量 不 相关 的 候选 回答 ， 同 样 影响 回答 评分 的 效率 和 效果 。 
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一 些 系统 采用 一 种 两 步 策略 ， 首 先 检 索 出 文档 集合 ， 然 后 分 割 成 段落 并 对 其 排序 。 现 
在 已 经 有 了 多 种 不 同 的 相关 度 评价 算法 ， 这 些 算法 通常 类 似 于 IR 系统 中 众所周知 的 检索 
模型 ， 对 段落 和 问题 进行 相似 度 比较 。 例 如 ， 利 用 对 查询 术语 的 逆 文 档 频 率 分 数 的 累加 进 
行 段落 排序 、 查 询 和 段落 术语 向 量 的 余弦 相似 度 比较 ， 以 及 Okapi BM25 权重 。Tellex 等 
L39] 对 多 种 段落 排序 算法 做 了 定量 对 比 实验 。 

一 些 QA 系统 也 使 用 自动 查询 扩展 技术 来 检索 更 多 的 相关 结果 。 通 常 ， 利 用 多 种 信息 
扩充 查询 术语 ， 如 形态 变 体 L12」、 关 联 概念 如 WordNet 中 的 同义词 或 者 上 位 词 和 其 他 的 
本 体 资源 L40，41]， 或 者 是 从 半 结 构 化 资源 (维基 百科 的 锚 文 本 [22] 和 重 定向 [23D 
中 抽取 得 到 的 相关 术语 。 然 而 ， 由 于 大 多 数 词语 都 会 有 一 词 多 义 性 质 ， 所 以 虽然 大 多 数 问 
题 的 上 下 文 都 提供 了 充足 的 术语 消 歧 信息 ， 但 识别 出 正确 的 词义 并 且 映 射 到 本 体 库 中 的 正 
确 解释 也 不 是 一 件 简 单 的 任务 。 例 如 ，“What movie star played the Joker in The Dark 
Knight?” PARI “star” A) VAR R RM “celebrity” Al “actor”, “What star on Orion's 
belt is most visible to the naked eye?” AJ HH “celestial body” 3E3 ke. 

可 以 根据 参考 语料库 的 元 余 程 度 来 决定 是 否 需 要 查询 扩展 。 在 对 元 余 程 度 很 高 的 互联 
网 语 料 进行 检索 时 ， 可 以 选择 依赖 语 料 中 语言 的 自然 变化 代替 查询 扩展 。 另 一 方面 ， 如 果 
资源 元 余 很 少 ， 例 如 内 部 网 的 QA 系统 ， 就 有 必要 进行 查询 扩展 来 获得 合理 的 召回 率 。 一 
般 来 说 ， 查 询 扩 展 可 以 提高 QA 系统 的 平均 性 能 ， 而 且 在 评测 任务 中 也 有 很 广泛 的 使 用 。 
然而 ， 一些 系 统 只 在 召回 率 较 低 的 时 候 才 进行 查询 扩展 ， 以 减 小 添加 不 相关 术语 从 而 污染 
查询 的 风险 [12. 41]. 

另 一 种 自动 查询 扩展 方法 是 伪 相 关 反 馈 (Pseudo-Relevance Feedback, PRF), ji Hj 
初始 查询 串 从 源 文 本 中 检索 出 相关 文本 段落 ， 然 后 从 搜索 结果 中 抽取 术语 扩充 查询 。 一 
些 系 统 进行 网 页 搜索 并 从 搜索 引擎 产生 的 摘要 片段 中 抽取 术语 [42, 43]. 然而 ，PRF 
是 否 对 QA 任务 有 帮助 ， 这 点 目前 还 没有 定论 ， 一些 研究 组 报告 表明 它 实际 上 会 降低 系 
统 性 能 [43]. 


13.5.2 ” 非 结构 化 源 文本 的 候选 抽取 


根据 查询 类 型 的 不 同 ， 搜 索 结 果 可 以 是 文档 、 段 落 其 至 单独 的 命名 实体 。 目 前 研究 者 
已 经 提出 了 从 高 层 的 搜索 结果 中 抽取 出 事实 回答 的 不 同 技术 。 通 常 ， 系 统 利 用 多 种 算法 的 
组 合 处 理 不 同 的 问题 类 型 ， 并 弥补 单个 算法 的 不 足 。 

l. 基于 类 型 的 候选 抽取 

迄今 最 常用 、 最 有 效 的 候选 生成 策略 之 一 ， 利 用 了 问题 分 析 阶 段 抽取 出 的 答案 类 型 信 
B (参见 13.4 节 )。 答 案 类 型 根据 事先 定义 的 、 静 态 的 类 型 本 体 库 、 命 名 实体 识别 定义 ， 
在 候选 回答 抽取 阶段 ， 利 用 命名 实体 识别 从 源 文本 中 抽取 出 同 预测 答案 类 型 一 致 的 实例 
(Moldovan [26], Prager [25]) 。 如 果 可 以 详尽 罗列 出 一 个 类 型 的 所 有 实例 ， 例 如 美国 总 
统 和 工作 日 名 称 (weekday name)， 识 别 候选 回答 最 优 效 的 方法 是 把 字典 放 到 内 存 中 。 这 
个 方法 通常 有 很 高 的 召回 率 ， 但 是 因为 查找 过 程 中 没有 消除 歧义 ， 所 以 精确 率 低 。 正 则 表 
达 式 方法 适用 于 数字 类 型 ， 例 如 数字 或 者 日 期 。 更 加 模糊 的 类 型 ， 例 如 人 和 名、 机构 名 和 地 
4 (Washington 可 以 是 人 名 、 城 市 名 和 州 名 ) 需要 更 复杂 的 启发 式 或 者 统计 模型 ， 这 种 
模型 可 利用 出 现 位 置 的 上 下 文 信息 。 

2. 结构 化 匹配 的 候选 抽取 

虽然 基于 答案 类 型 信息 的 候选 抽取 在 处 理 绝 大 多 数 事实 问题 上 有 效 ， 但 这 个 方法 事先 
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假设 在 问题 中 表明 了 答案 类 型 ， 而 且 用 户 认 为 命名 实体 识别 器 可 以 合理 识别 该 类 型 的 实 
例 。 考 虑 如 下 问题 例子 ，“What is Indianapolis known for?” 和 “What word was coined 
by Karel Capek for a mechanical man in his play R. U. R?”， 这 些 问 题 的 焦点 词 是 “What” 
和 “Word”， 第 一 个 问题 没有 问题 类 型 ， 第 二 个 问题 的 问题 类 型 很 常规 ， 所 以 几乎 没 用 。 

再 者 ， 问 题 类 型 分 类 是 一 种 面向 召回 率 的 方法 ， 只 简单 地 根据 类 型 信息 抽取 候选 回 
答 ， 而 没有 判断 候选 回答 在 语义 关系 上 是 否 满 足 问 题 。 因 此 ， 如 果 错 误 的 候选 答案 同 问题 
中 的 术语 共 现 次 数 较 多 ， 也 可 能 被 选择 。 例 如 ， 问 题 “Who killed Lee Harvey Oswald?” 
CTREC 8, Question 110) 构造 出 的 查询 关键 词 ， 可 能 会 检索 出 短语 “Lee Harvey Oswald 
Killed Jon F. Kennedy", AIAZ "John F. Kennedy” 很 可 能 作为 候选 回答 被 抽取 出 来 。 
男 外 ， 候 选 句 子 中 经 党 包含 预期 回答 类 型 的 多 个 实例 ， 而 单纯 的 基于 类 型 的 抽取 策略 不 能 
区 分 这 些 实例 。Light [44] 分 析 了 TREC 问题 集中 的 样 例 并 估计 出 ， 如 果 系 统 不 采用 
额外 的 技术 区 分 相同 句子 中 这 些 期 望 类 型 的 多 个 实例 ， 而 只 采用 基于 类 型 的 候选 抽取 技 
术 ， 那 么 性 能 上 界 只 能 达到 70 罗 的 精度 。 而 且 ， 只 有 在 假设 完美 的 问题 分 类 、 搜 索 和 命名 
实体 识别 的 基础 上 才能 达到 这 个 上 界 。 本 节 探 讨 的 候选 抽取 策略 可 以 弥补 基于 类 型 抽取 策 
略 的 不 足 ， 并 在 其 他 方面 对 其 进行 补充 。 

obj 
subj obj be by-subj pcomp-n 


Who killed Oswald Kennedy was killed by Oswald 
(a) (b) 





Ruby took his gun and killed Oswald 
(c) 
Al 13-3 ”一 个 问题 的 依存 分 析 树 (a)， 以 及 两 个 候选 句子 (b. CO 


结构 化 匹配 策略 对 问题 和 源 文本 中 的 句子 进行 分 析 ， 并 试图 在 句法 或 者 语义 结构 上 对 
两 者 对 齐 。 这 些 技术 确保 候选 回答 和 问题 的 实体 间 有 正确 的 关联 关系 ， 因 此 可 以 提高 精确 
率 。QA 系统 的 开发 者 通常 利用 开源 的 分 析 器 抽取 出 需要 的 句法 或 者 语义 信息 ， 但 是 对 于 
不 同 的 语言 这 些 工具 的 可 用 性 和 效果 不 同 。 结 构 化 匹配 的 一 个 可 能 的 选择 是 ， 利 用 依存 分 
析 工 具 [41. 45, 29] 抽取 出 句法 依存 关系 。 图 13-3 给 出 了 问题 “Who killed Oswald?”、 
候选 句子 “Kennedy was killed by Oswald" #1 “Ruby took his gun and killed Oswald” 的 
依存 分 析 树 结构 。 分 析 树 利用 工具 Minipar [46] 18 8], 3x Jé £x Z JE TR UK 23 Pr ss BO 
一 种 。 需 要 注意 的 是 ， 基 于 类 型 的 方法 可 以 从 这 两 个 句子 中 抽取 出 人 名 并 且 作 为 候选 回 
答 ， 如 果 候 选 回 答 按照 同 问题 关键 词 的 接近 程度 进行 排序 ， 那 么 “Kennedy” 很 可 能 被 选 
为 最 可 能 的 回答 。 利 用 结构 化 信息 ， 我 们 可 以 从 依存 分 析 树 中 抽取 出 节点 上 的 一 组 依存 关 
系 ， 得 到 依存 路 径 。 在 此 例 中 ， 我 们 可 以 从 问题 (a) 中 导出 路 径 “Who SUBJ OBJ Os- 
wald”, MAF (b) 和 (co) 中 分 别 导 出 路 径 “Kennedy OBJ by-SUBJ PCOMP N Os- 
ward” 和 “Ruby SUBJ OBJ Oswald”。 问 题 的 依存 路 径 同 句子 (o) 而 不 是 (bo 抽取 出 的 
路 径 匹配 ， 所 以 “Ruby” 而 非 “Kennedy” 可 以 被 确定 为 候选 回答 。 

这 种 方法 的 一 个 通常 刺 病 是 ， 由 问题 和 候选 句子 的 句法 差异 导致 的 不 匹配 。Attardl 
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等 [41] 在 原 有 人 句法 结构 上 应 用 简单 的 局 UU. 推导 出 额外 的 依存 路 径 来 处 理 此 问 
题 ， 进 而 增加 匹配 的 机 会 。 例 如 ， 可 以 去 除 停 用 词 ， 并 连接 经 过 这 个 词 的 两 个 节点 来 简化 
依存 路 径 。 在 句子 (bo 中 ， 停 用 词 “by” 可 以 去 除 并 且 把 路 径 “killed by-SUBJ PCOMP- 
N Oswald” 简 化 为 “Killed SUBJ Oswald", Cui 等 [29] 利用 统计 方法 学 习 训 练 数据 集中 
依存 关系 的 相似 性 ， 并 进行 依存 路 径 的 相似 匹配 。 

或 者 ， 结 构 化 匹配 可 以 基于 浅 层 语义 信息 ， 例如 谓词 -~ 论 元 结构 [42. 36] 和 语义 框 
AR [47]。 这 里 我 们 阐述 谓词 - 论 元 结构 的 使 用 ， 此 结构 捕捉 事件 和 参与 这 些 事件 的 实体 。 
事件 是 动词 ， 参 与 者 为 主语 、 宾 语 和 动词 的 间接 格 论 元 (oblique argument of the verb), 
每 个 参与 者 都 被 指定 为 一 个 参与 该 事件 的 语义 角色 ， 例 如 “agent” (通常 标注 成 “ARG- 
0"). “patient” (通常 标注 成 “ARG-1”)、 “location” (ARGM-LOC), 或 者 “time” 
(ARGM-TMP)。PropBank 语料库 [48] 用 谓词 - 论 元 结构 进行 了 了 人工 标 注 ， 并 可 以 用 来 
训练 出 一 个 可 以 自动 进行 标注 工作 的 语义 角色 标注 (SRL) 系统 。 一 个 常用 的 SRL 系统 
是 开源 的 ASSERT (表示 Automatic Statistical SEmantic Role Tagger) [49] 分 析 器 。 对 
问题 和 候选 句子 进行 分 析 ， 然 后 做 语义 结构 的 匹配 。 利 用 13. 5. 1 节 介 绍 的 技术 ， 问题 术 
语 可 以 用 相关 的 概念 进行 补充 ， 以 促进 与 搜索 结果 术语 的 对 齐 。 如 果 候 选 句 子 分 析 树 中 的 
论 元 包含 了 问题 中 丢失 的 信息 ， 则 可 以 被 抽取 并 作为 候选 回答 。 

图 13-4 中 的 例子 展示 了 问题 “What did Peter Minuit buy in 1626?” 的 回答 是 如 何 应 
用 基于 为 谓词 - 论 元 结构 进行 匹配 的 。 注 意 此 问题 不 包含 明显 的 答案 类 型 ， 因 此 基于 类 型 
的 候选 抽取 策略 在 此 处 不 适用 。 这 个 例子 也 表明 ， 此 方法 保存 了 问题 中 指明 的 实体 之 间 的 
关系 (E “Peter Minuit” 一 定 是 “buy” 事 件 的 施 事 者 ，“Manhattan” 是 它 的 受 事 者 )， 
因此 也 适用 于 “Kennedy-Oswald” 例子 。 


问题 “What did Peter Minuit buy in 1626?" 


相关 术语 : 







谓词 purchase, acquire 
eder — ad E pee 





回答 语句 “In May 1626, Minuit purchased Manhattan." 
图 13-4 语义 角色 标注 和 匹配 例子 


与 基于 类 型 的 抽取 策略 相 比 ， 结 构 化 匹配 具有 计算 密集 的 特点 ， 并 会 带 来 较 低 的 召回 
率 ， 因 为 它 施 加 了 额外 的 约束 并 且 严 重 依赖 于 元 信息 (meta-information) [37] 抽取 组 件 
的 正确 性 。 尤 其 是 , 语义 分 析 比 较 慢 且 容 易 出 错 。 一 般 ， 结 构 化 方法 会 辅 以 答案 类 型 分 析 
来 提高 效率 和 精确 率 。 例 如 ，Attardi 等 [41] 在 进行 代价 较 高 的 分 析 前 会 把 不 包含 期 望 
类 型 实体 的 候选 句子 过 滤 掉 ， 同 样 Schlaefer 等 [36] 要 求 语义 分 析 中 抽取 出 的 论 元 ， 如 
果 作 为 候选 回答 ， 则 必须 和 预测 出 的 问题 类 型 一 致 。 
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3. 基于 表层 模式 的 候选 抽取 

候选 回答 也 可 以 利用 表层 模式 进行 抽取 ， 表 层 模 式 指 仅 利 用 了 搜索 结构 的 词汇 表述 ， 
并 不 需要 句法 或 者 语义 分 析 。 模 式 可 以 是 问题 术语 实例 化 后 的 正则 表达 式 模 板 ， 并 同 包含 
回答 的 文本 段落 进行 匹配 。 例 如 ， 模 板 

<ORG> was (founded | established) in (the year)? <ANSWER> 

可 能 用 于 抽取 出 关于 一 个 给 定 机 构 的 成 立 日 期 问题 的 候选 回答 。 分 类 组 件 对 问题 进行 分 
类 ， 然 后 基于 指定 的 类 别 选 择 一 个 表层 模式 。 类 别 没 有 必要 同 问题 类 型 完全 相同 ， 可 以 是 
更 粗 或 更 细 粒 度 的 。 例 如 ， 段 落 “Johann Sebastian Bach (31 March 1685 - 28 July 1750) 
was a German composer ”需要 不 同 的 表层 模式 来 抽取 “date of birth “# “date of 
death”， 但 是 基于 答案 类 型 抽取 方式 可 以 利用 单纯 的 “date” 识 别 器 抽取 出 两 个 日 期 ， 并 
作为 候选 答案 。 表 层 串 可 以 手工 编写 也 可 以 利用 训练 数据 的 问题 -回答 对 自动 学 习 得 到 
L50，51]j。 更 泛 化 的 模式 可 自动 从 具体 的 模式 中 构建 出 来 ， 以 便 匹 配 范围 更 广 的 相似 表述 
方式 。 例 如 ， 和 常用 词语 可 以 用 规范 性 、 词 类 甚至 通配符 替换 ， 命 名 实体 类 型 可 以 被 具体 的 
类 型 实例 所 代替 [52]. 

表层 模式 同 结构 化 匹配 类 似 ， 也 不 依赖 答案 类 型 信息 ， 因 此 适用 于 没有 明显 有 用 类 型 
问题 的 处 理 ， 例 如 “What is Enrico Fermi most known for?” (TREC 14. Question 87. 5), 
表层 模式 也 可 以 保证 问题 的 语义 关系 被 保留 。 另 一 方面 ， 这 种 方法 仅 适 用 于 只 有 有 限 个 预 
定义 范畴 的 问题 。 例 如 ， 对 于 可 能 是 问题 主语 的 实体 的 通用 属性 ， 设 计 出 它 的 类 别 和 表层 
模式 是 可 行 的 ， 如 一 个 人 的 国籍 或 者 职业 ， 或 一 个 机 构 的 领导 、 规 模 。 然 而 ， 问 题 
"What is the legal blood alcohol limit for the state of California?" (TREC 8, Question 41) 
需要 有 一 个 类 别 “legal blood alcohol limit” 来 保证 对 应 的 模式 集 的 特殊 性 。 男 外 ， 依 赖 于 
模式 串 的 笼统 性 ， 这 种 方法 通常 会 有 低 召 回 率 或 者 低 精 确 率 的 问题 。 具 体 化 的 模式 可 能 会 
错失 那些 正确 回答 的 实例 ， 如 果 是 在 先前 未 见 过 的 表层 形式 出 现 的 回答 ， 然 而 过 于 泛 化 的 
模式 ， 会 抽取 出 不 正确 的 候选 集合 并 引入 噪声 。 

在 本 节 讨 论 的 候选 抽取 方法 中 ， 最 常用 的 就 是 基于 类 型 的 候选 产生 方式 ， 它 依赖 适用 
于 语 料 的 语言 的 应 用 领域 的 好 的 命名 实体 识别 工具 ， 或 者 是 应 用 领域 的 本 体 相 关 库 。 结 构 
化 候选 抽取 方式 依赖 于 更 复杂 的 NLP 技术 ， 如 果菜 个 语言 不 存在 效果 好 的 命名 实体 工具 ， 
那么 相应 的 复杂 NLP 技术 也 不 可 能 存在 。 如 果 给 定 了 目标 语言 内 选择 的 问题 类 别 充足 的 
问题 一 回答 对 ， 那 么 表层 模式 方法 可 以 保留 。 而 且 这 个 方法 通常 在 英语 QA 系统 中 ， 用 作 
对 基于 类 型 的 候选 抽取 方式 的 补充 ,而且 如 果 某 种 语言 上 基于 类 型 方式 的 效果 不 好 ， 那 么 
此 方法 可 能 会 充当 更 重要 的 作用 。 


13.5.3 结构 化 源 文 本 的 候选 抽取 


不 同 于 在 非 结构 化 语料库 上 的 搜索 ，QA 系统 可 以 在 结构 化 和 半 结 构 化 源 文件 上 进行 回 
答 查 找 。 结 构 化 数据 通常 存储 在 关系 型 数据 库 (relational database) 或 者 是 资源 描述 框架 
(Resource Description Framework, RDF) 仓库 中 ， 实 体 和 对 应 的 属性 存储 其 中 。 人 例如， 数据 
库 表 可 能 包含 著名 的 演员 ， 以 及 他 们 的 生日 、 民 族 、 演 过 的 电影 和 获得 的 奖项 。 结 构 化 资源 
常常 利用 离线 方式 填 人 ， 或 者 通过 开源 资源 例如 DBpediaS 和 Freebase? ， 利 用 自动 关系 抽 
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取 技 术 处 理 非 结构 化 源 文 本 L53，16j， 或 者 通过 手工 加 工 应 用 领域 的 相关 数据 。 

半 结 构 化 资源 的 例子 是 结构 化 元 素 同 半 结 构 化 文本 混合 的 网 站 。 例 如 ， 地 名 词典 可 能 
提供 了 不 同 国家 的 第 见 统 计数 据 ， 例 如 国土 大 小 、 人 口 和 官方 语言 ， 以 及 政策 体制 和 经 济 
的 叙述 。 第 用 的 统计 数据 可 以 存储 成 所 有 国家 一 样 的 结构 化 格式 ， 叙 述 可 以 以 非 结 构 化 的 
纯 文本 形式 组 织 。 类 似 地 ， 维 基 百 科 的 页 面 通常 把 非 结 构 化 的 文本 与 表格 结合 在 一 起 ， 这 


” 些 表格 使 相同 类 别 的 实体 ， 例 如 董事 长 或 者 公司 ,在 所 有 页 面 内 保持 格式 一 致 。 半 结构 化 


源 文本 可 以 离线 获取 并 转换 成 结构 化 的 数据 ， 或 者 在 运行 时 通过 封装 存 取 ， 以 便 只 抽取 需 
要 的 或 者 最 新 的 信息 。 

与 非 结 构 化 源 文本 上 的 候选 抽取 方法 相 比 ， 在 结构 化 和 半 结 构 化 源 文本 中 查找 回答 ， 
常常 有 较 高 的 精确 率 但 是 较 低 的 召回 率 ， 因 为 系统 的 效果 受 限 于 自动 识别 问题 中 支持 的 关 
系 类 型 ， 以 及 正确 映射 此 类 型 到 源 文本 中 表示 的 类 型 的 能 力 。 此 外 ， 构建 和 维护 这 些 源 的 人 
力 成 本 相当 大 。 在 实际 应 用 中 ， 往 往 整 合 结构 化 和 非 结构 化 源 ， 以 结合 两 个 方法 的 优 缺点 。 


13.6 ”回答 评分 

本 节 对 常用 、 有 趣 的 回答 评分 和 验证 方法 做 一 个 概述 (参见 13.6.1 节 )。 我 们 进一步 
探讨 如 何 整合 多 种 证 据 源 ， 合 并 或 者 强化 和 相似 候选 回答 (参见 13. 6. 2 节 )。 我 们 也 勾画 
出 如 何 扩 展 这 些 技术 和 算法 以 处 理事 实 型 回答 的 列表 (参见 13. 6. 3 T). 


13, 6. 1 方法 概述 


如 果 知 识 源 语义 元 余 ， 即 包含 很 多 正确 回答 的 实例 ， 那 么 简单 的 基于 频率 的 回答 方法 
可 以 有 效 地 从 多 个 符合 期 望 答案 类 型 的 实体 中 识别 出 回答 。 例 如 ，Clarke、Cormack 和 
Lynam [55] 先 抽取 出 符合 答案 类 型 《例如 长 度 ) 的 所 有 实例 ， 并 利用 类 似 信 息 检 索 中 频 
率 - 道 文档 频率 (TF-IDF〉 的 加 权 方 式 对 它们 进行 排名 。 此 算法 对 在 搜索 结果 中 出 现 频率 
高 的 候选 回答 进行 提升 ， 对 在 知识 源 中 总 体 上 频 现 的 回答 进行 处 罚 。 其 最 根本 的 假设 
为 ， 正 确 的 回答 在 检索 到 的 文本 中 最 常见 ， 这 种 情况 常见 于 大 规模 的 元 余 源 〈 例 如 互联 
网 ) 中 对 问题 关键 词 周围 的 段落 作 检 索 。 这 种 方法 很 容易 实现 ， 并 且 也 可 以 作为 开发 一 
个 适用 于 任何 语言 的 事实 性 QA 系统 的 出 发 点 。 然 而 ， 如 果 源 文件 包含 较 少 的 相关 段落 ， 
或 者 某 个 错误 的 回答 经 常 和 问题 术语 共 现 时 ， 这 种 方法 会 失效 ， 例 如 13.5.2 TH “ken- 
nedy-Oswal" 例子。 

基于 类 型 的 候选 回答 抽取 方法 ， 可 以 与 计算 问题 和 候选 段落 间 的 词语 级 相似 度 方法 结 
合 ， 获 得 更 加 精确 的 置信 分 值 。 例 如 ， 段 落 中 出 现 的 问题 关键 词 的 数量 (可 以 用 IDF 分 数 
进行 加 权 ) 和 段落 中 这 些 关键 词 的 接近 程度 都 可 以 作为 相关 性 的 预 判 [56, 57]. 13.5.2 
节 中 讨论 的 基于 结构 化 匹配 和 表层 模式 的 回答 抽取 算法 也 可 以 得 出 候选 回答 的 置信 分 值 。 
当 利 用 句法 依存 路 径 的 近似 匹配 时 ， 问 题 和 候选 句子 路 径 之 间 的 相似 度 可 以 用 于 置信 和 度 佑 
it [29]。 同 样 ， 基 于 浅 层 语义 信息 的 结构 化 匹配 ， 也 可 以 得 到 反映 匹配 接近 度 的 置信 分 
(& [42]。 当 利用 表层 模式 作 候 选 抽取 时 ， 每 个 模式 的 精确 率 可 以 离线 地 在 测试 数据 上 售 
计 ， 而 且 在 利用 此 模式 抽取 候选 回答 时 也 可 以 指定 为 置信 估计 L50]. 

为 了 论证 更 深层 的 推理 方法 对 问题 回答 的 影响 ，Moldovan、Rus [58] #1 Moldovan 
等 [59] 采用 如 下 方法 : 根据 问题 和 潜在 包含 回答 的 段落 的 句法 分 析 结 果 ， 把 它们 转换 成 
逻辑 表达 ， 并 在 回答 评分 阶段 利用 逻辑 验证 工具 COGEX 来 合 一 这 两 个 逻辑 表达 式 。 如 果 
合 一 成 功 ， 则 同 问题 wh-slot 合 一 的 段落 中 的 实体 ， 就 被 认为 是 此 问题 的 回答 。 当 包含 回 
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答 的 段落 的 词汇 和 结构 与 问题 相差 较 大 时 ， 这 种 方法 对 浅 层 方法 的 优势 很 明显 。 例 如 ， 考 
虑 问题 “Which company created the internet browser Mosaic?” 和 段落 “A program called 
Mosaic, developed by the National Center for Supercomputing Applications, has been gai- 
ning popularity lately. 号”。 为 了 合 一 这 两 个 文本 的 逻辑 表达 式 ，COGEX 必须 使 “create” 
同 “develop” 合 一 ， 使 “Internet browser Mosaic” 同 “Mosaic” 合 一 ， 并 把 “National 
Center for Supercomputing Applications” 识 别 成 一 个 机 构 名 并 且 使 机 构 名 的 实例 同 
“company” 合 一 。COGEX 借助 从 eXtended WordNet (XWN) 注释 [60] 中 自动 导出 的 
世界 知识 公理 ， 实 施 合 一 ， 这 些 资源 可 以 使 “create” 等 同 于 “develop”， 也 利用 了 人 大工 
编码 的 NLP 公理 集 ， 例 如 公理 “复合 名 词 的 中 心 名 词 可 等 同 于 该 复合 名 词 ” 可 以 让 “In 
ternet browser Mosaic” WE] “Mosaic” 联系 起 来 。 

新 近 在 PASCAL RTE 挑战 下 [1j， 文 本 蕴涵 技术 已 经 被 开发 出 来 ， 要 求 系统 判断 
一 名 话 能 否 推 导出 男 外 一 句 话 ， 而 不 是 判断 它们 是 否 等 价 。 Alin, AF “Judge Drew 
served as Justice until Kennon returned to claim his seat in 1945” 推 导出 假设 “Kennon 
served as Justice”, [Hz ZAM C(ORTE-3, Pair 122, Harabagiu 和 Hickl [61] 在 QA 系统 
的 回答 评分 中 结合 了 文本 蕴涵 工具 ， 并 已 证 实 可 以 显著 提高 系统 效果 。 

Magnini 等 [62] 介绍 了 一 种 利用 互联 网 元 余 来 估计 候选 回答 置信 分 值 的 算法 ， 即 
Web 强化 算法 。 对 于 每 一 个 候选 回答 ， 该 算法 利用 问题 的 关键 词 和 候选 回答 构造 出 查询 ， 
并 提交 给 互联 网 搜索 引擎 得 到 摘要 片段 。 然 后 通过 摘要 中 候选 回答 和 问题 关键 词 的 接近 程 
度 ， 为 此 候选 回答 指定 分 值 。 此 方法 的 基本 原理 为 : 与 问题 关键 字 密 切 相 关 的 候选 回答 ， 
在 互联 网 上 出 现 的 位 置 也 很 可 能 同 关 键 词 非常 接近 。 一 些 系统 也 利用 外 部 语义 资源 验证 回 
答 。WordNet 和 从 维基 百科 得 到 的 结构 化 信息 ， 可 以 验证 一 个 候选 是 否 是 正确 的 类 型 
L59, 63], Pid, WordNet 中 上 位 词 关系 和 维基 百科 的 文章 分 类 都 证 实 “Richard Feyn- 
man is a physicist”, ff LA [a] “Which physicist developed the theory of quantum electro- 
dynamics?” 的 一 个 合理 回答 是 “Richard Feynman”。 地 名 辞典 提供 的 信息 可 以 验证 地 理 
问题 [24]。 例 如 ，CIA World Factbooks 证 实 “Brazil is a country in South America”, [X] 
此 可 能 是 问题 “Which country in South America has the largest area?” AYIA. 

Prager, Duboue 和 Chu-Carrol [64] 提出 了 一 个 有 趣 的 回答 验证 方法 ， 即 利用 逆 问 
题 。 例 如 ， 给 定 问 题 “What was the capital of Germany in 1985?” 和 候选 回答 “Bonn”， 
他 们 的 方法 表述 了 道 问 题 “Of what country was Bonn the capital in 1985?” 然 后 重新 执行 
QA 查询 流水 线 ， 如 果 逆 问题 得 到 的 候选 回答 中 包含 “Germany”， 那 么 QA 系统 会 提高 
“Bonn” 作为 原始 问题 候选 回答 的 置信 度 。 逆 问题 方式 可 以 在 TREC 问题 上 提升 效果 ， 但 
是 它 的 计算 量 很 大 。 


13.6.2 证据 结合 


通常 利用 统计 技术 结合 多 个 证 据 源 来 对 回答 进行 评分 [56，57，24]。 每 个 证 据 以 数 
字 或 者 类 别 特征 的 形式 表示 ， 统 计 模 型 利用 这 些 特征 估计 候选 回答 正确 的 概率 。 概 率 的 估 
计 可 以 用 来 对 回答 排名 ， 并 决定 最 好 的 回答 是 否 应 该 提供 给 用 户 。 除 了 前 面 描述 的 方法 ， 
它 融 合 的 特征 通常 预测 性 较 弱 ， 但 是 对 正确 答案 的 指示 性 较 强 ， 例 如 IR 引擎 指定 搜索 结 采 
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的 排名 和 分 值 ， 并 且 某 个 候选 回答 是 否 同期 望 的 答案 类 型 匹配 。 统 计 模 型 也 可 以 用 于 整合 多 
种 置信 分 值 彼 此 不 可 相互 比较 的 回答 生成 算法 得 到 的 候选 集合 。 通 常 使 用 的 统计 方法 包括 逻 
辑 回归 (logistic regression) [65] Alm APER [66], 

因为 搜索 结果 会 元 余 ， 并 且 由 于 源 和 上 下 文 不 同 ， 相 同 的 概念 可 以 用 不 同 的 方式 表 
ih. MU QA 系统 最 终 产生 的 候选 回答 列表 通常 包含 相似 甚至 等 价 的 实体 。 等 价 的 回答 可 
能 是 词汇 和 语义 上 的 变化 ， 例 如 ， 缩 写 (VW 5 Volkswagen), APH (Al-Qaeda 与 
Al-Qaida), 、 同 义 词 (China 5 Middle Kingdom), 测量 单位 不 同 . (100C 5j 212 "F2, 3 
外 ， 候 选 回 答 可 以 在 不 同 程度 上 相似 。 例 如 ， 一 个 候选 回答 可 以 比 其 他 的 更 详细 (Rome. 
Italy 与 Italy; George W. Bush 与 Bush)， 或 者 候选 回答 在 数字 表示 上 的 不 同 (12 049m 
与 12. 053m) 。 相 关 的 候选 回答 也 为 给 定 候选 回答 的 正确 性 提供 了 证 据 ， 因 此 应 该 在 回答 
评分 阶段 被 考虑 在 内 。 

Prager, Luger 和 Chu-Carroll [67] 提出 了 基于 规则 的 相关 候选 回答 识别 方法 ， 这 种 
方法 也 基于 答案 类 型 信息 。 例 如 ， 可 以 为 多 种 地 点 类 型 、 机 构 类 型 和 数字 实体 类 型 构造 不 
同 的 规则 集合 ， 并 涵盖 大 多 数 早 期 例子 。 在 相关 候选 回答 分 值 的 基础 上 ， 可 以 利用 启发 式 
方法 提高 此 候选 回答 的 分 值 ， 同 时 应 考虑 它们 的 相似 程度 。 如 果 事 先 可 以 确定 出 相对 小 规 
模 的 高 频 答 案 类 型 集合 ， 这 个 方法 就 会 很 明智 ， 而 且 对 于 TREC 评测 中 的 问题 很 有 效果 。 
与 Prager 等 人 在 一 个 独立 的 后 处 理 步骤 中 提高 相关 候选 集合 的 分 值 不 同 ，Ko、Si 和 Ny- 
berg [24] 为 了 在 回答 评分 步骤 中 强化 相似 候选 回答 ， 提 出 了 一 个 集成 的 方法 。 一 个 统一 
的 概率 框架 融合 了 估计 候选 回答 正确 性 的 特征 和 衡量 候选 之 间 相 似 度 的 特征 。 字 符 串 距离 
测度 ， 如 编辑 距离 (Levenshtein distance) MIA aK FAW IE (cosine similarity), #% AFH 
量 候选 回答 间 的 词汇 相似 度 ， 而 从 WordNet、 维 基 百 科 编 制 而 来 的 同义词 数据 库 和 手写 规 
则 ， 被 用 来 识别 语义 相似 的 回答 。 

已 经 提出 的 一 个 挑战 是 路 语言 的 回答 合并 。 这 个 场景 在 跨 语言 QA( 参 见 13.7 节 ) 中 很 
可 能 出 现 ， 此 时 需要 把 从 多 个 语种 的 源 文件 中 抽取 的 回答 进行 汇总 ， 它 们 支持 的 附属 证 据 也 
需要 被 结合 。 未 来 的 NII Test Collection IR (NTCIR) 会 考虑 跨 语言 回答 合并 的 评测 。 

在 回答 一 个 事实 型 问题 时 ， 如 果 最 高 分 低 于 先前 规定 的 国 值 也 会 返回 空 结果 ，QA R 
统 常 常 返 回 分 值 最 高 的 回答 或 不 回答 。 如 果 问 题 提 得 不 好 (如 “Who is the prime minister 
of the United States") 或 者 原文 中 不 包含 回答 ， 则 返回 空 结果 是 有 效 的 选项 。 对 于 一 个 完 
美的 QA 系统 来 说 ， 纵 然 可 以 提供 一 个 答案 ， 通 知 用 户 系统 失败 比 返 回 一 个 错误 和 可 能 是 
误导 的 回答 更 好 。 


13.6.3 扩展 到 列表 型 问题 

本 节 通 过 事实 型 问题 的 例子 对 一 些 技术 进行 说 明 ， 但 对 于 希望 得 到 事实 性 回答 列表 的 
问题 也 是 适用 的 (例如 ，“What books did George Orwel write?”) 。 回 答 列 表 型 问题 时 ， 
通常 返回 最 好 的 n 个 回答 ，n 可 以 在 问题 中 给 定 (例如 ，“Who were the last ten presi- 
dents of the United States?”)， 或 者 用 估计 得 到 的 置信 分 值 动态 确定 。 例 如 ， 一 个 系统 可 
以 选择 从 最 优 回 答 直 到 给 定 的 置信 和 度 阅 值 的 回答 列表 ,或 者 在 发 现 置 信和 度 大 幅 降 低 时 停止 
选择 。 有 效 的 相似 候选 问题 合并 对 于 列表 型 问题 尤其 重要 ， 这 样 可 以 避免 返回 相同 回答 的 
多 个 实例 (Flan, “Bill Clinton 和 William Jefferson Clinton"), 


13.7 跨 语言 问答 
在 跨 语言 问答 中 ， 提 问 的 语言 与 知识 源 的 语言 不 同 ， 当 将 一 个 单 语 系统 扩展 到 跨 语言 
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系统 的 任务 时 ， 开 发 人 员 可 以 把 源 文 档 翻 译 成 提问 的 语言 ， 或 者 将 问题 和 关键 词 翻译 成 文 
档 的 语言 。 哪 种 方法 更 有 效 的 争论 源 于 IR 学 界 ， 但 很 难 有 确凿 的 证 据 来 证 明 。 因 为 每 个 
翻译 方向 需要 不 同 的 机 器 翻译 系统 ， 所 以 两 种 方法 性 能 上 的 不 同 可 能 源 于 方法 的 不 同 或 者 
是 机 器 翻译 系统 的 不 同 。 通 过 对 TREC 评测 的 跨 语言 的 IR 数据 进行 查询 翻译 和 文档 翻译 
的 比较 ，McCarley [68] 曾 试图 解决 这 个 问题 。 这 两 种 翻译 方法 将 英法 和 法 英 数 据 集 进 行 
比较 ， 而 机 器 翻译 模型 也 用 相同 数据 集 进行 训练 。 不 存在 一 种 方法 始终 优 于 另 一 种 方法 ， 
但 是 一 个 能 够 执行 查询 和 文档 翻译 的 混合 系统 与 任何 一 种 单一 功能 系统 相 比 是 更 为 有 效 的 
办 法 。 令 人 惊讶 的 是 ， 它 甚至 比 人 工 的 查询 翻译 更 为 有 效 ， 这 表明 在 计算 成 本 可 控 的 条 件 
下 ， 混 合 方法 是 最 理想 的 方法 。 

TE QA 系统 中 ， 这 两 种 翻译 方向 都 已 成 功 实现 。 支 持 源 翻译 方法 的 普遍 证 据 是 对 机 器 
翻译 错误 的 鲁 棒 性 。 假 设 重要 的 问题 关键 词 没有 准确 翻译 出 来 ， 则 不 可 能 选取 正确 的 答 
案 。 男 一 方面 源 文本 经 常 包括 多 个 相关 段落 ， 若 正确 翻译 其 中 一 个 段落 ， 就 已 经 足够 。 此 
外 ， 源 文本 翻译 可 以 在 离线 预 处 理 状态 下 进行 ， 在 运行 时 不 需要 额外 的 费用 ， 也 不 需要 对 
QA 流水 线 做 任何 的 修改 。 另 外 ， 源 文本 若 比 较 大 ， 或 者 需要 支持 多 种 语言 的 问题 ， 离 线 
翻译 也 许 较 晶 贵 。 因 此 ， 研 究 员 可 能 需要 采取 更 有 效 的 但 不 大 精确 的 机 器 翻译 算法 。 进 一 
步 说 ， 仅 当 源 文本 可 以 本 地 储存 和 索引 ， 源 翻译 才 是 行 得 通 的 ， 因 此 这 并 不 适用 于 Web 
搜索 。 此 外 ,与 13. 3 节 中 讨论 的 其 他 源 文本 预 处 理 步骤 类 似 ， 在 机 器 翻译 系统 改进 以 后 ， 
源 翻译 也 需要 更 新 。 

Bowden 等 人 [69] Æ 2007 年 的 CLEF 英法 、 英 葡 QA 任务 中 进行 了 源 翻 译 。 这 两 项 
任务 包含 事实 性 问题 、 列 表 性 问题 和 定义 性 问题 。 这 些 源 文本 被 离线 翻译 成 英语 ， 单 语 QA 
系统 从 这 些 翻译 中 抽取 答案 。 最 后 的 答案 被 映射 回 法 语 或 葡萄 牙 语 源 的 相应 文本 片段 。 因 此 
QA 系统 可 以 在 没有 对 新 的 语言 进行 适应 的 情况 下 被 使 用 ， 尽 管 需要 放宽 回答 中 一 些 语义 和 
句法 的 限制 来 弥补 不 准确 的 翻译 。 

对 于 一 些 QA 任务 来 说 ， 翻 译 整 个 源 文本 是 可 行 的 。 在 问题 分 析 时 翻译 问题 ， 或 者 翻 
译 从 问题 中 摘 取 的 关键 词 和 短语 并 对 源 文 本 进行 随后 的 流水 线 步骤 是 更 为 普遍 的 做 法 。 在 
翻译 整个 问题 时 ， 可 根据 上 下 文 消除 词语 间 的 歧义 。 此 外 ， 间 题 的 句法 结构 映射 到 源 语言 
中 ， 可 在 源 文本 语料库 中 选取 名 法 结构 相似 的 句子 。 另 一 方面 ， 如 果 问 题 是 复杂 的 ， 就 很 
难 找 到 一 个 准确 的 、 符 合 句 法 的 翻译 ， 在 这 种 情况 下 ， 单独 的 关键 词 翻 译 可 能 更 有 效 。 在 
源 语言 中 解析 问题 ， 仅 当 更 可 靠 的 NLP 工具 对 该 语言 可 用 时 才 翻 译 关 键 词 ， 可 能 是 更 好 
的 做 法 。 可 结合 多 种 翻译 系统 ， 通 过 投票 方式 来 提高 翻译 的 准确 性 L17j。 有 用 的 在 线 资 
源 包 括 Google Translate? 和 BabelFish? ， 可 用 于 问题 翻译 ,维基 百科 中 对 其 他 语言 写 的 
文章 的 链接 和 Wiktionary® 可 用 于 关键 词 翻 译 。 

一 个 挑战 来 自 于 欧洲 和 亚洲 语言 间 的 跨 语 言 QA 系统 中 的 专 有 和 名词 的 翻译 ,不 管 采 
用 何 种 翻译 方法 。 例 如 ， 一 个 英国 人 的 名 字 可 有 完全 不 同 的 日 语 翻译 ， 但 是 也 可 以 用 片 假 
名 书写 系统 转 写 ， 甚 至 可 以 在 日 语文 本 中 用 罗马 字母 来 书写 。 进 一 步 说 ， 如 果 名 字 用 片 假 
名 转 写 ， 经 常 有 不 止 一 种 拼写 方式 ， 不 同 的 作者 可 能 会 用 不 同 的 字符 。 这 种 歧义 可 以 通 
过 检索 和 匹配 相关 文本 时 考虑 多 种 翻译 来 解决 ， 或 在 预 处 理 阶 段 用 规范 的 形式 来 代替 源 
中 指向 相同 的 实体 的 专 名 (参见 13.3 节 ) 。 后 一 种 方法 避免 了 运行 时 的 计算 开销 ， 但 在 


© http://translate. google. com/ 。 
©  http://babelfish. yahoo. com/, 
© http://www. wiktionary. Org/ 。 
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运行 时 需要 识别 指向 同一 实体 的 表达 式 并 将 其 映射 为 唯一 的 表示 。 


13.8 案例 研究 


在 这 一 节 中 我 们 提出 一 个 案例 研究 ， 进 一 步 说 明 本 章 前 面 几 节 介 绍 的 概念 和 技术 。 我 
们 把 问题 “The 2008 Summer Olympics took place in which city?”( 答 案 : Beijing) 作为 一 
个 运行 的 例子 。 我 们 展示 如 何在 图 13-1 中 介绍 的 典型 的 QA 流水 线 的 每 一 阶段 来 处 理 这 
个 问题 ， 包 括 问题 分 析 、 查 询 生成 、 搜 索 、 候 选 生 成 和 回答 评分 。 我 们 运用 一 些 最 常见 的 
和 有 效 的 QA 算法 ， 但 请 注意 ， 这 绝 不 是 在 QA 中 已 经 实现 或 可 行 的 功能 的 完整 概述 。 

一 个 典型 的 QA 系统 的 问题 分 析 组 件 显示 于 算法 13-1。 给 定 问 题字 符 串 ， 我 们 的 示例 
系统 抽取 两 个 命名 实体 (NE) “2008” Al “Summer Olympics”。 这 可 以 通过 使 用 正则 表 
达 式 匹配 年 份 的 实例 和 一 个 常见 事件 或 体育 比赛 的 列表 来 完成 。 在 字典 中 查找 后 来 被 用 作 
查询 术语 的 另外 的 关键 术语 。 例 如 ， 本 体 WordNet® 把 “take Place” 识 别 为 一 个 复合 动 
i. 。 一 个 功能 词 的 列表 被 用 来 排除 不 能 作为 查询 术语 的 词 ， 只 留 下 关键 术语 “2008”、 
“Summer Olympics", “took place” 和 "city", 

算法 13-1 典型 QA 流水 线 的 问题 分 析 组 件 
AnalyzeQuestion(String question) 


aq.question — question 


// 抽取 关键 术语 用 于 查询 生成 
aq.nes —— extractNamedEntities( question) 
aq.keyTerms —— extractKeyTerms( question, aq.nes) 


// 抽取 句法 依存 关系 


aq.depParse — parseSyntacticDependencies( question) 


// 对 基于 类 型 的 候选 抽取 ， 预 测 答案 类 型 
aq.focus +— extractQuestionFocus( aq.depParse) 
ag.answer Type — predictAnswerType(ag.depParse, aq.focus) 


return ag 


图 13-5 显示 了 问题 实例 的 一 棵 依存 分 析 树 。 依 存 分 析 树 可 借助 公开 可 用 的 工具 ， 如 
Minipar® 或 Stanford Parser® 生成。 关键 术语 “city” 把 疑问 词 “which” 作 为 其 限定 词 ， 
因此 可 以 很 容易 地 确定 为 问题 的 焦点 。 我 们 的 示例 系统 没有 一 个 “city”( 城 市 ) 名 命名 实 
体 识别 程序 ， 使 “city” 不 适合 作为 一 个 答案 类 型 。 然 而 ,在 WordNet 里 ，“city” 的 上 位 
词 是 “location”( 地 理 位 置 )， 而 “location” 可 用 各 种 开源 工具 包 如 OpenNLP® 提取 。 因 
此 我 们 把 问题 焦点 词 “city” 映 射 为 更 加 普遍 的 答案 类 型 “location”。 


det 


loc pcomp-n 
attr attr subj obj det 


The 2008 | Summer Olympics took place in which city 
图 13-5 问题 实例 的 依存 分 析 树 


http; //wordnet. princeton. edu/ 。 

http: //webdoes. cs. ualberta. ca/ ~ lindek/minipar. htm, 
http: //nlp. stanford. edu/software/lex-parser. shtml, 
http: //opennlp. sourceforge. net/ 。 
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碍 询 生 成 组 件 ， 如 算法 13-2 所 示 ， 构 建 了 在 前 一 步 中 提取 的 关键 术语 的 查询 。 我 们 
假设 Indri 信息 检索 系统 将 用 于 搜索 阶段 ， 因 此 查询 必须 符合 Indri 的 查询 语言 。 我 们 的 
QA. 系统 还 用 在 外 部 结构 资源 中 找到 的 相关 术语 来 扩展 问题 关键 术语 。 对 于 示例 问题 ， 从 
维基 百科 侧 边 栏 提取 的 结构 化 信息 可 以 用 来 识别 出 “Olympic Games” 是 “Summer 
Olympics ”的 一 个 上 位 词 〈 指 的 是 冬季 奥运 会 和 夏季 奥运 会 ) . AS, WordNet 为 关键 术 
i "take place” 提 供 了 为 一 同义词 “happen”。 给 定 了 关键 术语 和 相关 术语 ， 下 面 的 查询 
可 以 构造 出 来 : 

1) #combine[p] (2008 #1(Summer Olympics) #1(took place) city) 

2) #combine [p] (2008 

#weight(1 #1(Summer Olympics) 0.3 #1(Olympic Games) ) 


#weight(1 #1(took place) 0.5 happened) 
city) 


算法 13-2 典型 QA 流水 线 的 查询 生成 组 件 


GenerateQueries(AnalyzedQuestion aq) 
queries +— © 


// 在 维基 百科 、WordNet 等 中 查找 相关 术语 
related Terms = getRelatedTerms(ag.key Terms) 


// 从 关键 术语 和 相关 术语 产生 查询 
queries — queries U key TermQuery(aq.key Terms) 
queries 二 queries U expandedQuery(aq.key Terms, related Terms) 


return queries 


Indri 的 查询 操作 符 #eombine [p] CO 用 于 检索 已 经 在 源 中 预 标 注 的 段落 。 段 落 可 
以 根据 标点 符号 和 现 有 的 标记 自动 标注 。 在 #1(*…) 中 括 起 的 术语 必须 作为 连续 词 元 出 
现在 源 中 ， 类 似 于 在 网 页 搜索 时 用 的 引号 。 第 二 个 查询 包括 相关 术语 但 把 较 低 的 权重 给 同 
义 词 (0.5) 和 上 位 词 (0. 3) 。 这 里 权重 的 具体 数值 只 是 用 于 说 明 ， 但 应 该 用 一 组 开发 集 
问题 来 调整 以 优化 搜索 性 能 。 

搜索 组 件 ， 如 算法 13-3 所 示 ， 使 用 查询 从 一 个 Indri 索引 集合 来 检索 文本 。 这 些 索 引 
是 从 本 地 源 ， 如 新 闻 语 料 库 和 一 个 维基 百科 的 拷贝 建立 的 。 每 个 查询 是 针对 每 个 源 单 独 运 
行 ， 搜 索 结 果 需 合并 。 上 典型 的 QA 系统 检索 10—100 个 段落 ， 但 为 了 简单 起 见 ， 我 们 假设 
对 问题 实例 ， 只 检索 到 以 下 三 个 段落 : 

1) The 2008 Summer Olympics took place in Beijing, China, from August 8 to Au- 
gust 24, 2008. 

(2008 年 夏季 奥运 会 在 中 国 北 京 举 行 ， 从 2008 Æ 8 H 8 A Fl 244.) 

2) The Summer Olympics were held in Peking in 2008，in Athens in 2004，and in 
Sydney in 2000. 

(夏季 奥运 会 2008 在 北京 举行 ，2004 在 雅典 举行 ，2000 年 在 悉尼 举行 。) 

3) When I visited Beijing during my trip to China in 2008, the airport was crowded 


because of visitors who came to watch the Olympics. 


(343€ 2008 年 访问 北京 时 ， 机 场 很 拥挤 ， 因 为 大 量 游 客 前 来 观看 奥运 会 。) 


© http://www. lemurproject. org/indri/, 
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算法 13-3 ”典型 QA 流水 线 的 搜索 组 件 
Search(String|] queries, String|] indezPaths) 
passages —— 0 
foreach query (queries) 
foreach indexPath (indexPaths) 
passages +— passages U retrievePassages( query, indexPath) 


return passages 


在 候选 生成 阶段 (参见 算法 13-4)， 两 个 互补 的 答案 抽取 策略 应 用 于 检索 的 段落 。 面 
回 召 回 率 的 候选 生成 右 从 所 有 段落 中 抽取 出 类 型 为 “location” 的 实例 ， 返 回 候选 “Bei- 
jing, China”、“Peking”、“Athens”、“Sydney”、“Beijing”@ 和 “China”。 第 二 个 更 精确 的 
候选 抽取 器 对 段落 进行 依存 句法 分 析 ， 把 问题 分 析 树 (参见 图 13-5) 中 的 依存 路 径 “O- 
lympics subj loc pcomp-n city” 与 第 一 段 中 的 相似 路 径 “Olympics subj loc pcomp-n Bei- 
jing” 进 行 匹配 ， 并 提取 “Beijing，China” 作 为 唯一 的 候选 。 

算法 13-4 HA OA 流水 线 的 候选 生成 组 件 
GenerateCandidates(String[] passages, AnalyzedQuestion aq) 
answers — Ø 


foreach passage (passages) 
// 答案 类 型 匹配 
answers —— answers U extractAnswerType( passage) 


// 旬 法 依存 路 径 匹 配 


answers — answers U extractDepPath(ag.depParse, passage) 


return answers 


回答 评分 组 件 (参见 算法 13-5) 从 候选 答案 中 计算 出 能 预测 其 正确 性 的 特征 ， 并 根据 
特征 值 估 算 置 信 分 值 。 当 前 最 好 的 系统 通常 合并 几 十 个 甚至 数 以 百 计 的 特征 ， 但 在 这 里 ， 
我 们 集中 于 三 个 特征 ， 可 利用 不 同形 式 的 证 据 : 

1) 在 所 检索 的 段落 中 候选 答案 的 频率 。 

2) 问题 和 检索 出 候选 答案 的 段落 的 文本 间 的 相似 性 。 我 们 简单 地 把 相似 性 估计 为 占 
段落 的 关键 词 占 所 有 问题 关键 词 CH] 2008, Summer, Olympics, took, place 和 city) 的 
比例 。 

3) 一 个 二 元 特征 ， 指 示 候 选 答案 是 否 由 一 个 段落 蕴涵 。 这 里 ， 我 们 假设 识别 文本 蕴 
i& (RTE) 算法 是 可 用 的 ， 能 预测 出 候选 Beijing, China, Peking, Beijing and China (H. 
仅 有 这 些 候 选 ) 是 被 蕴涵 的 正确 答案 。 


算法 13-5 ”典型 QA 流水 线 的 回答 评分 组 件 


ScoreAnswers(String[] answers, String|] passages, AnalyzedQuestion aq) 
scoredAnswers — © 


foreach answer (answers) 


// 特征 1: 在 检索 的 段落 里 的 答案 的 频率 


freq — countAnswerFrequency(answer, passages) 


// 特征 2: 段落 和 问题 间 的 文本 相似 度 


textSim — calculateTextSimilarity(answer, passages, aq.question) 


// 特征 3: 判断 是 否 一 个 段落 蕴涵 问题 
entailed — recognizeEntailment(answer, passages, aq.question) 


// 从 特征 值 估算 置信 分 值 
score +— estimateScore( freq, teztSim, entailed) 
scoredAnswers —— scoredAnswers U (answer, score) 





// 通过 增强 置信 分 值 来 强化 相似 的 答案 


scoredAnswers «— reinforceSimilarAnswers( scoredAnswers) 


return scoredAnswers 


第 三 个 段落 再 次 说 明了 RTE 的 困难 。 对 一 个 人 来 说 ， 通 过 阅读 该 段落 ， 很 明显 得 出 
北京 是 一 个 正确 的 答案 。 然 而 ， 系 统 必须 推理 出 Olympics d$ Summer Olympics 而 不 是 指 
Winter Olympics， 因 为 任意 一 年 只 可 能 举办 这 两 种 奥运 会 之 一 。 此 外 ， 它 还 得 出 结论 ， 
因为 游客 前 来 观看 比赛 ， 比 赛 可 能 会 在 北京 举行 。 幸 运 的 是 ， 由 于 源 文本 中 的 语义 元 余 ， 
所 以 这 些 复杂 的 处 理 过 程 往往 在 实践 中 是 不 必要 的 。 在 这 个 例子 中 ， 正 确 答案 可 以 更 容易 
地 从 第 一 或 第 二 个 段落 中 提取 。 

每 个 候选 通过 前 面 的 特征 表示 的 证 据 被 合并 为 一 个 置信 分 值 。 特 征 值 和 总 的 置信 分 值 
见 表 13-3。 这 里 ， 我 们 简单 地 为 每 个 特征 赋予 相同 的 权重 ， 使 用 平均 特征 值 作 为 评分 。 然 
而 ， 在 实践 中 ， 利 用 逻辑 回归 或 其 他 的 统计 技术 ， 建 立 一 个 模型 并 与 人 工 判 断 的 候选 回答 
数据 集 相 拟 合 ， 是 更 有 效 的 。 该 模型 可 以 通过 机 器 学 习 工 具 ， 如 Weka9 zX MinorThird9 
来 估计 。 

在 这 个 例子 中 ,，“Beijing” 和 “China” 是 并 列 排名 第 一 。 然 而 ， 一 个 回答 强化 算法 通 
过 字符 串 匹 配 识 别 出 “Beijing，China” 比 这 些 候选 更 具体 ， 并 且 在 WordNet Œ$ “Peking” 
TEX “Beijing” Wir] X ij. QA 系统 增加 这 些 类 似 候 选 的 置信 分 值 ， 并 返回 “Beijing， 
China” 为 最 佳 答案 。 因 为 它 是 最 具体 的 。 如 果 最 高 的 候选 得 分 低 于 预定 义 的 靖 值 〈 例 如 ， 
0.8)，QA 系统 反而 会 表明 它 不 能 找到 答案 。 


表 13-3 ”对 问题 “The 2008 Summer Olympics took place in which city?” 的 候选 回答 的 特征 和 置信 分 值 


候选 频率 文本 相似 度 蕴涵 分 值 
Beijing, China 1 0. 83 1 0. 94 
Peking 1 0. 5 1 0. 83 
Athens 1 0. 5 1 0..50 
Sydney ] Ord ] 0. 50 
Beijing 2 0. 33 1 1:4] 
China 2 0. 33 1 Debs 


13.9 评测 


在 过 去 的 十 年 里 ， 问 答 系 统 的 研究 是 由 有 组 织 的 评测 工作 所 驱动 ， 也 创造 了 大 量 的 社 
区 资源 可 用 于 进一步 开发 :对 英语 QA 有 文本 检索 会 议 (TREC) 以 及 后 来 的 文本 分 析 会 
iM 〈TAC)， 对 英语 和 其 他 欧洲 语言 的 路 语言 QA 有 跨 语 言 评测 论坛 (CLEF)， 对 亚洲 语 
言 QA 有 NTCIR。 下 面 ， 我 们 描述 这 些 评 测 任 务 ， 并 讨论 评测 方法 和 常见 的 性 能 指标 。 


13.9. 1 评测 任务 
1999— 2007 年 TREC 英语 问答 系统 每 年 进行 评测 (TREC 8 一 16) [8j]。 这 个 评测 论 


坛 已 成 为 英语 QA 研究 的 主要 驱动 力 ， 评 测 中 产生 的 问题 集 和 答案 关键 字 已 成 为 标准 测试 
集 。 最 初 ，TREC 主要 集中 于 事实 型 问题 ， 但 在 后 来 的 几 年 中 ， 列 表 型 、 定 义 型 和 关系 型 
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问题 也 增加 了 。 虽 然 早期 的 测试 集 由 独立 的 、 自 包含 问题 组 成 ， 在 最 近 的 评估 中 ， 问 题 被 
组 织 为 具有 一 个 共同 主题 的 系列 ， 包 含 对 主题 、 前 面 的 问题 和 答案 的 引用 。2008 年 ，QA 
任务 被 移 人 到 刚 设立 的 TAC [9], 集中 于 询问 观点 、 观 点 的 对 象 和 观点 持 有 者 的 列表 型 问 
题 。 表 13-4 说 明了 TREC 和 TAC 问题 的 常见 类 型 。 


表 13-4 TREC 和 TAC 的 常见 问题 类 型 实例 
问题 类 型 问题 例子 
事实 型 Who was the first American in space? 

(TREC 8, Question 21) 
Where is the Valley of the Kings? 
(TREC 9, Question 249) 


列表 型 Name 20 countries that produce coffee. 
(TREC 10 list task, Question 1) 
fe SL HY Who is Aaeon Copland? 


(RTREC 12 main task, Question 1901) 
What is a golden parachute? 
(TREC 12 main task, Question 1905) 


关系 型 Are Israel's military ties to China increasing? 
(TREC 14 relationship task , Question 17) 
观点 型 Who likes Mythbusters? 


(TAC, Question 1018. 1) 
Why do people like Trader Joe’s? 
(TAC, Question 1047. 2) 


TREC 评测 中 ， 系 统 需要 从 文本 集合 中 检索 出 答案 ， 这 些 集合 最 初 是 报纸 上 的 文章 ， 后 
来 增加 了 从 网 络 上 拒 下 来 的 博客 网 站 。 在 TAC 中 ， 这 个 博客 集合 是 观点 型 问题 候选 答案 的 
唯一 来 源 。 博 客 语料库 提出 了 新 的 挑战 ， 因 为 它 的 规模 不 允许 全 面 的 预 处 理 ， 而 很 差 的 文本 
质量 则 需要 更 鲁 棒 的 自然 语言 处 理工 具 。 在 TREC 和 TAC 两 个 评测 中 ， 系 统 必 须 对 每 个 答 
案 从 源 文本 中 提出 一 个 文档 ， 该 文档 包含 答案 并 提供 证 据 。 因 此 ， 即 使 系统 允许 利用 额外 
的 源 ， 如 用 Web 来 产生 候选 答案 并 进行 评分 ， 最 后 答案 的 理由 必须 源 于 评测 的 源 。 

NTCIR 研讨 会 关注 的 是 亚洲 语言 的 单 语 和 跨 语言 QA [11]。QA 系统 中 提出 了 事实 型 问 
题 ， 最 近 ， 也 包括 更 复杂 的 事件 、 传 记 、 定 义 、 关 系 问 题 ， 并 且 必 须 在 新 闻 语 料 库 中 识别 出 
答案 。 目 前 ， 源 文本 是 日 语 或 中 文 (简体 和 繁体 )， 问 题 以 相同 的 语言 提出 〈 单 语 QA) 或 以 
英语 提出 ( 跨 语 言 QA)。 在 跨 语言 QA 中 ,不 需要 把 答案 翻译 回 英 语 。 虽 然 TREC 集中 于 
QA 系统 的 端 到 端的 评测 ，NTCIR 还 提供 了 在 团队 之 间 交 换 问题 分 析 和 文档 检索 结果 的 任 
务 。 通 过 这 种 方式 ， 参 与 者 可 以 评估 不 同 的 算法 组 合 ， 并 对 各 个 组 件 的 有 效 性 得 出 结论 。 

CLEF 评测 各 种 欧洲 语言 的 QA 系统 ， 包 括 保加利亚 语 、 荷 兰 语 、 英 语 、 法 语 、 德 
语 、 意 大 利 语 、 挪 威 语 、 葡 萄 牙 语 、 罗 马 尼 亚 语 和 西班牙 语 [10]. fü NTCIR 一 样 ， 评 测 
也 包括 单 语 和 跨 语 言 的 子 任务 ， 但 是 CLEF 的 特征 是 有 更 多 的 问题 和 语料库 语言 对 。 过 去 
的 评价 包括 事实 和 定义 型 问题 ， AN 如 新 闻 文 
章 、 维 基 百 科 的 文档 、 即 时 的 讲话 转录 稿 等 。 


13.9.2 ”判断 答案 正确 性 


虽然 许多 问题 有 多 个 可 接受 的 答案 ， 事 实 型 答案 的 正确 判断 是 最 简单 的 ， 因 为 大 多 数 
可 接受 的 答案 是 语义 等 价 的 ， 如 Volkswagen 和 VW。 在 有 些 情 形 下 判断 会 更 复杂 ， 包 括 需要 
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返回 数字 答案 的 问题 ， 正 确 答案 可 能 是 一 个 范围 或 者 可 能 会 随时 间 而 改变 答案 的 问题 。 前 
者 的 一 个 例子 是 莱特 兄弟 第 一 次 飞行 的 长 度 是 多 少 ? (TREC 11, 1414 题 )。 对 该 问题 120 英 
尺 或 120 英尺 4 英寸 都 被 认为 是 正确 答案 。 后 者 的 例子 是 问 一 个 人 的 年 龄 或 一 个 公司 的 首席 
执行 官 。 在 过 去 的 TREC, TAC, NTCIR 和 CLEF 评测 中 ， 参 与 者 提交 的 答案 由 评审 员 进 行 
人 工 判 断 。 评 审 员 确定 的 正确 答案 随后 可 以 被 汇编 成 标准 答案 用 于 自动 评测 。 

评价 答案 的 正确 性 ， 对 于 复杂 的 回答 是 有 难度 的 ， 如 对 定义 型 问题 的 回答 。 例 如 ， 往 
往 很 难 决 定 是 否 一 个 事实 足够 重要 可 以 纳入 回答 中 ， 其 至 对 回答 的 完整 性 是 否 是 必 不 可 少 
的 。 在 TREC 中 ,评审 员 在 必须 包括 在 答案 中 或 可 以 不 加 惩罚 答案 的 重要 和 可 接受 信息 块 
的 列表 的 基础 上 来 评价 回答 。 例 如 ， 对 亚马逊 河 的 定义 型 问题 的 完美 答案 (TREC 15， 问 
题 187.7) 必须 提 到 亚马逊 是 世界 上 最 长 的 河流 ， 回 答 中 包括 亚马逊 网 站 是 以 亚马逊 河 命 
名 的 信息 是 可 接受 的 。 评 估 工 具 ， 如 Nuggeteer [70] 和 -Pourpre [71] 已 经 开发 出 来 ， 可 
对 复杂 回答 进行 自动 评估 。 


13. 9.3 性 能 度量 


评估 QA 系统 性 能 的 关键 取决 于 它 是 否 提供 了 问题 的 正确 答案 。 然 而 ， 多 年 来 ， 已 经 
提出 并 采用 了 许多 评价 方法 ， 试 图 用 一 个 单一 的 性 能 指标 来 表示 系统 对 回答 排名 的 能 力 、 
对 回答 正确 性 的 置信 度 等 。 

对 于 事实 型 QA 最 简单 和 直观 的 性 能 度量 是 准确 率 。 设 n 是 测试 集 的 问题 的 数量 ， 
c 是 系统 返回 的 第 一 候选 正确 答案 的 问题 数 ， 那 么 准确 率 定义 为 


准确 率 = 二 
n 


准确 率 仅 基于 可 信 度 最 高 的 答案 ， 平 均 排 名 倒数 (Mean Reciprocal Rank, MRR) J£ 
量 也 考虑 了 排名 较 后 的 正确 答案 。 对 于 测试 集 的 每 一 个 问题 qi (i 二 1,…… n), Bri 为 问 
题 产 生 的 命中 列表 中 第 一 个 正确 答案 的 排名 〈 如 果 有 正确 答案 的 话 )。MRR 计算 如 下 : 


fr 如 发 现 正确 答案 


0 F 

MRR 通常 是 基于 一 个 固定 排名 下 的 前 几 个 回答 。 例 如 ，MRR@5 只 考虑 每 个 问题 排 
名 最 高 的 前 5 个 答案 。 这 个 度量 对 描述 系统 的 召回 率 是 有 用 的 ， 奖 励 能 把 正确 答案 排 在 答 
案 列 表 较 前 位 置 的 系统 。MRR 通常 只 用 于 评价 前 5 或 10 个 候选 的 排名 ， 因 为 它 只 对 排 在 
前 面 的 候选 敏感 ， 排 在 后 面 的 正确 答案 对 这 个 度量 几乎 没有 影响 。 

考虑 系统 对 答案 赋予 置信 度 的 一 个 度量 是 置信 加 权 评 分 (Confidence Weighted Score, 
CWS) 。 按 照 首 选 答案 的 置信 度 得 分 对 问题 进行 降序 排列 。 然 后 ， 定 义 CWS 为 : 

CWS = ly 到 问题 i 为 止 正确 的 答案 个 数 
n i=] 


1 


MRR = LY. 


n i=] 


这 个 度量 奖励 正确 答案 以 及 在 问题 之 间 可 比 的 可 靠 置信 估计 。 

列表 型 问题 的 性 能 经 常用 下 值 来 度量 。 设 i; 为 测试 集中 到 第 i 个 列表 问题 的 正确 答案 
的 个 数 ，r; 为 QA 系统 为 该 问题 返回 的 答案 的 个 数 ，c; 为 这 些 答案 中 正确 的 个 数 。 进 一 
步 ， 设 第 i 个 问题 的 召回 率 和 精确 率 定义 如 下 s 


日 ”注意 这 些 标准 答案 经 常 是 不 完备 的 且 取 决 于 参考 语料库 ， 因 此 需要 不 断 更 新 以 便 在 后 续 的 实验 中 更 精确 地 反 
映 系统 性 能 ， 
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Ci 


Cx - * 
Recall; — LOT Precision; = — 
i ri 


那么 FF 值 是 精确 率 和 召回 率 的 加 权 调 和 平均 值 ， 
Aa (g +1) X Precision; X Recall; . 


B® X Precision; + Recall; 
加 权 参 数 8 确定 精确 率 和 召回 率 的 相对 重要 性 。B8 越 大 ， 越 多 的 权重 将 给 予 召 回 率 ， 即 
找到 所 有 的 正确 答案 更 重要 ， 避 免 不 正 确 的 答案 相对 不 重要 。 如 果 8 二 1， 精 确 率 和 召回 率 是 
同等 重要 的 。QA 系统 对 一 个 列表 问题 集合 的 整体 性 能 可 以 被 定义 为 对 下 值 的 算术 平均 值 : 


FO = -» FQ 
i=l 


F 值 也 用 于 评价 定义 型 问题 和 其 他 具有 复杂 答案 的 问题 。 在 TREC 和 TAC rp, PESE 
员 汇 集 了 他 们 认为 是 答案 中 重要 的 或 可 接受 部 分 的 信息 块 列表 。 召 回 率 和 精确 率 以 QA X 
统 产 生 的 答案 对 这 些 信息 块 的 覆盖 率 和 答案 的 长 度 为 基础 定义 [8, 9]. 

Æ TREC 2007 评测 中 顶尖 的 QA 系统 对 事实 性 问题 的 准确 率 为 71% ， 对 列表 型 问题 
的 F(1) 值 是 0. 48。 在 CLEF 2008 多 语种 QA 任务 中 [10]， 最 好 的 系统 在 单 语 任务 中 达 
到 的 准确 率 为 64%， 而 所 有 参与 者 的 平均 准确 率 是 24%。 然 而 ， 在 跨 语 言 任务 中 最 好 的 
系统 只 有 19% 的 准确 率 ， 而 平均 为 13%。 在 NTCIR 2007 跨 语 言 QA 任务 [72] 中 ， 对 
事实 型 问题 报道 的 最 好 性 能 对 于 上 日语 单 语 任务 是 34% 的 准确 率 ， 而 对 于 汉语 单 语 QA 任务 
是 52% 。 最 好 的 路 语言 系统 的 准确 率 要 低 得 多 : 在 英 日 任务 中 是 18%、 英 汉 任 务 中 是 
25%。 这 些 结果 说 明 ， 在 跨 语 言 QA 中 查询 或 源 文本 的 翻译 成 了 极 大 的 额外 挑战 。TAC 
评测 和 最 近 的 NTCIR 评测 集中 于 具有 复杂 答案 的 问题 ， 评 测 结 果 不 在 这 里 公布 ， 因 为 它 
们 并 不 直观 ， 主 要 用 于 系统 比较 。 


13.10 ”当前 和 未 来 的 挑战 


我 们 已 经 看 到 ， 问 答 系 统 通 常 使 用 简单 的 统计 模型 和 启发 式 方法 来 抽取 候选 答案 并 对 
其 排序 。 这 种 技术 适用 于 源 文本 是 语义 元 余 的 且 包 含 许多 答案 实例 的 情形 ， 当 源 文本 是 庞 
大 的 或 者 问题 是 关于 当前 热门 话题 时 这 是 常见 的 。 然 而 ， 如 果 源 文本 不 是 见 余 的 ， 则 可 能 
需要 更 复杂 的 查询 扩展 技术 来 检索 包含 答案 的 文档 和 上 段落， 并 且 更 深层 次 的 NLP 和 推理 
技术 对 于 识别 答案 并 找 出 理据 是 非常 必要 的 。 在 最 极端 的 语义 匹配 和 文本 总 涵 的 例子 中 ， 
整个 源 语料库 中 只 有 一 个 包含 答案 的 段落 ， 问 答 系 统 必 须 确定 它 是 否 蕴 涵 答 案 。 通 常 ， 问 
题 和 文本 段落 间 的 语义 关系 并 非 明 显 ， 只 能 通过 本 体 库 和 相关 性 计算 来 进行 术语 匹配 、 基 
于 精确 的 句法 和 语义 分 析 树 来 进行 结构 匹配 、 利 用 世界 知识 来 进行 逻辑 推理 ， 才 能 揭示 出 
来 。 在 概述 (参见 13. 1 节 ) 中 的 Volkswagen-Bentley 例子 和 在 (参见 13.6 节 ) 中 讨论 的 
将 RTE 用 于 回答 评分 的 例子 都 说 明了 文本 殖 涵 中 的 困难 。 

本 章 所 描述 的 技术 是 从 知识 源 中 提取 答案 的 技术 而 不 是 从 文本 中 包含 的 信息 中 综合 出 
答案 。 虽 然 这 种 技术 对 于 大 多 数 事实 型 问题 都 是 适用 的 ， 但 是 当 答案 不 是 显 式 存 在 于 资源 
中 而 必须 从 其 他 的 陈述 中 推导 出 来 的 时 候 ， 这 种 技术 就 不 可 行 了 。 例 如 ， 相 对 于 文章 的 出 
版 日 期 解析 时 间 表 达 式 (例如 ， 昨 日 ， 政 府 宣布 …… )， 或 者 进行 单位 转换 、 数 值 相 加 等 
运算 (PIM, 十 大 富豪 以 美元 计算 的 联合 净 资 产 是 多 少 ?) 是 非常 必要 的 。 纯 粹 的 候选 提 
取 技 术 对 于 具有 复杂 回答 的 问题 是 不 够 有 效 的 ， 因 为 组 成 一 个 自然、 连贯 、 没 有 元 余 的 段 
落 是 非常 重要 的 ,并且 答案 需要 从 多 个 文档 的 事实 中 推演 出 来 。 
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对 于 一 个 问答 系统 来 说 ， 将 候选 答案 进行 生成 和 评分 是 远 远 不 够 的 ， 还 需要 对 排名 靠 
前 的 答案 进行 可 靠 的 置信 估计 。 如 果 现 有 的 最 好 答案 不 大 可 能 是 正确 的 ， 则 告知 用 户 这 个 
问题 无 法 回答 可 能 是 更 好 的 做 法 。 不 正确 的 回答 会 减少 用 户 对 于 问答 系统 可 靠 性 的 信任 ， 
因此 会 影响 系统 对 用 户 的 有 用 性 。 置 信 估 计 对 于 列表 型 问题 也 是 非常 重要 的 ， 因 为 正确 答 
案 的 数量 是 不 可 预 估 的 ， 而 取决 于 系统 返回 多 少 实例 。 在 目前 的 系统 中 ， 置 信 估 计 在 问题 
间 经 常 是 不 一 致 的 ， 而 取决 于 各 种 因素 如 答案 类 型 、 资 源 的 宛 余 或 者 是 问题 的 长 度 。 

跨 语言 的 问答 系统 ， 例 如 在 NTCIR 和 CLEF 中 的 评测 的 系统 ， 已 经 向 着 成 熟 的 多 语 
系统 迈 出 了 第 一 步 。 当 前 的 系统 能 够 把 问题 翻译 为 信息 源 的 语言 ， 并 产生 这 种 语言 的 答案 。 
但 是 ， 答 案 并 没有 译 回 提 问 的 语言 。 那 些 并 不 精通 源 文本 语言 的 用 户 就 会 要 求 系统 能 够 接受 
用 户 用 自己 的 语言 提问 并 返回 同一 种 语言 的 答案 ， 但 是 可 以 搜索 各 种 语言 的 知识 源 。 

TREC, CLEF, NTCIR 这 些 评测 论坛 ， 无 疑 推 动 了 QA 的 技术 进步 ， 但 是 也 导致 了 
对 具体 相关 任务 的 专门 解决 方案 通常 不 能 容易 地 适应 新 的 领域 和 真实 世界 的 应 用 。 为 了 促 
进 QA 技术 的 实际 应 用 ， 将 来 的 研究 应 该 集中 在 通用 的 问答 算法 和 技术 ， 从 而 可 以 更 快 地 
适应 新 的 任务 ， 并 在 不 同 领域 的 实现 高 性 能 [73]. 

虽然 迄今 为 止 大 多 数 的 研究 都 集中 在 事实 型 问题 和 列表 型 问题 ， 但 是 有 着 复杂 答案 的 
问题 ， 例 如 定义 型 、 关 系 型 和 观点 型 问题 最 近 得 到 了 更 多 的 关注 。 然 而 ， 问 答 系 统 在 提供 
复杂 答案 的 情况 下 并 不 那么 有 效 。 问 答 算 法 和 一 致 性 自动 评价 方法 的 改进 对 于 提高 复杂 问 
答 系 统 的 性 能 以 达到 实际 应 用 的 要 求 都 是 非常 必要 的 。 尤 其 难 回 答 的 问题 包括 : 如 何 
(how) MAA Cwhy) 类 问题 ， 需 要 找 出 解释 或 理由 ;是非 题 ， 需 要 系统 确定 可 用 的 信 
息 源 的 联合 知识 是 否 蕴 涵 某 个 假设 。 处 理 这 类 问题 的 有 效 算法 还 需要 开发 . 


13. 11 总 结 和 进一步 阅读 


间 答 系统 可 以 看 作 目 前 盛行 的 信息 检索 系统 的 下 一 步 发 展 。 它 们 支持 目 然 语言 提问 并 
且 返 回 精 确 回答 ， 提 供 了 直观 、 高 效 的 信息 获取 方式 。 问 题 回答 是 信息 检索 的 强化 这 个 观 
点 ,反映 在 了 QA 系统 通用 的 架构 上 。 大 多 数 最 先进 的 系统 ， 原 则 上 遵循 如 下 组 成 流水 线 
MAE: 1) 把 问题 转换 成 搜索 引擎 的 查询 ; 20 利用 现存 的 TR. 系统 检索 出 相关 文本 ; 
3) 抽取 出 候选 回答 并 进行 评分 。 然 而 ,在 基本 的 设计 方式 上 也 存在 例外 和 变化 。 一 些 
QA 系统 进行 了 多 种 预 处 理 ， 以 支持 结构 化 查询 ， 或 者 构造 出 用 于 查找 回答 的 结构 化 信息 
知识 库 。 如 果 先 前 搜索 结果 的 召回 率 不 能 令 人 满意 ， 那 么 执行 额外 的 迭代 搜索 也 是 普遍 做 
法 ， 有 些 系统 甚至 重新 运行 部 分 或 者 整个 流程 来 验证 置信 和 度 高 的 候选 回答 。 

我 们 讨论 了 已 经 应 用 于 QA 流水 线 中 的 问题 分 析 、 搜 索 和 候选 生成 、 评 分 阶段 的 多 种 
算法 ， 包 括 简单 的 启发 式 、 模 式 匹 配 到 统计 模型 ， 再 到 语义 分 析 和 推理 。 回 答 大 多 数 事实 
型 问题 的 一 个 简单 有 效 的 方法 是 利用 答案 类 型 信息 。 利 用 期 望 的 问题 类 型 对 问题 进行 分 
类 ， 并 利用 命名 实体 识别 工具 从 检索 得 到 的 文本 段落 中 抽取 出 这 些 类 型 的 候选 回答 。 这 种 
方法 可 以 作为 实现 一 个 QA 系统 的 合理 出 发 点 ， 但 是 此 方法 受到 预先 定义 的 类 型 集合 的 限 
制 ， 并 在 很 大 程度 上 依赖 于 宛 余 度 来 从 匹配 的 期 望 类 型 候选 中 选择 最 终 回答 。 

我 们 介绍 了 一 些 回答 抽取 和 评分 的 算法 ， 这 些 算 法 利用 问题 和 段落 的 深层 次 分 析 克 服 
这 些 限 制 ， 对 不 满足 名 法、 语义 或 者 逻辑 约束 的 候选 回答 进行 丢弃 或 者 打折 扣 。 这 些 算法 
通常 可 以 提升 QA 性 能 ， 但 是 需要 相当 大 的 实现 代价 ， 并 且 相 比 单纯 的 基于 类 型 的 方法 更 
为 脆弱 。QA 系统 通常 在 查询 生成 、 回 答 抽取 和 评分 阶段 融合 不 同 的 算法 ， 每 种 算法 都 有 
自己 的 优 劣 。 从 非 结构 化 的 文本 中 抽取 回答 可 以 与 结构 化 资源 中 的 查找 方式 互补 ， 对 于 第 
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见 类 型 问题 的 回答 ， 这 种 方法 有 很 高 的 精确 率 和 效率 。 统 计 模 型 可 以 结合 多 种 证 据 源 ， 并 
利用 候选 回答 间 的 相似 度 进行 回答 评分 。 

相似 的 架构 和 算法 已 被 应 用 到 不 同 语言 的 QA 系统 中 ， 但 在 实现 过 程 中 需要 解决 具体 
语言 带 来 的 挑战 。 此 外 ,深层 NLP 技术 ， 例 如 语义 回答 抽取 和 文本 推导 ， 在 一 些 语 言 上 
是 不 可 行 的 ， 因 为 相关 的 NLP 工具 不 可 用 或 者 不 足够 精确 。 跨 语言 QA 系统 通过 翻译 源 
文本 ， 或 翻译 问题 或 者 抽取 出 的 关键 词 ， 来 支持 不 同 语言 的 问题 和 源 文 本 。 这 两 种 方法 在 
实际 中 都 有 使 用 ， 因 为 不 能 确定 哪 种 方法 的 效果 一 贯 地 好 于 另 一 种 方法 。 

问答 学 科 同 信息 检索 相 比 仍然 处 于 早期 阶段 ， 但 是 在 迅速 地 发 展 。 过 去 的 十 年 里 ， 一 
些 标准 评测 任务 例如 TREC、CLEF 和 NTCIR 推动 了 研究 的 发 展 ， 这 些 评测 任务 为 参评 
团体 提供 数据 集 和 测量 效果 提升 的 评价 标准 ， 并 组 织 了 讨论 班 来 分 享 研究 思路 。 但 是 ， 这 
些 计划 也 使 研究 重心 导向 了 具体 的 QA 任务 ， 并 通常 得 出 高 度 专门 化 的 解决 方法 ,但 这 些 
方法 并 不 适用 于 新 的 知识 领域 、 资 源 和 问题 类 型 。 一 个 主要 的 公开 挑战 是 更 通用 的 算法 开 
发 ， 这 种 算法 可 适用 于 更 广泛 的 QA 任务 并 且 可 以 很 容易 适应 新 的 任务 。 为 了 有 效 地 解决 
具有 复杂 回答 的 问题 ， 我 们 也 有 必要 从 回答 抽取 策略 转向 更 灵活 的 回答 产生 算法 。 如 果 源 
文本 缺少 语义 上 的 宛 余 ， 则 需要 更 深层 的 NLP 技术 找到 回答 。 最 后 ， 为 了 利用 多 语 资 源 ， 
例如 互联 网 ， 我 们 需要 支持 用 户 交 互 ， 并 支持 多 种 不 同 语言 的 信息 资源 的 QA 系统 。 

对 于 进一步 阅读 ， 我 们 推荐 《问答 系统 导论 》[L74]， 它 涵盖 了 基本 原理 和 有 趣 的 系统 
综述 。 目 前 也 有 两 本 较 新 的 讨论 QA 系统 的 重大 进展 和 创新 方法 的 书籍 [75. 76]. XF 
近期 的 英文 QA 出 版 物 、 测 试 集合 以 及 以 往 的 评测 结果 ， 我们 推荐 读者 访问 NIST 网 站 ， 
查阅 TRECS 和 TACS 。NTCIRS 和 CLEF® 评测 论坛 对 于 单 语 和 路 语言 QA 系统 (亚洲 
和 欧洲 语言 ) 来 说 是 极 好 的 资源 。 

虽然 我 们 的 讨论 主要 集中 于 事实 型 和 列表 型 问题 的 回答 所 涉及 的 算法 和 资源 ， 但 近 些 
年 已 经 做 出 了 相当 多 的 努力 来 解决 其 他 更 复杂 回答 的 问题 ， 例 如 定义 型 问题 、 观 点 型 问题 
和 关系 型 问题 。Blair-Goldensohn、McKeown 和 Schlaikjer [77 ] 提出 了 回答 定义 型 问题 的 一 
个 混合 方法 ， 这 种 方法 结合 了 基于 知识 和 统计 学 的 策略 。Weischedel、Xu 和 Licuanan [ 78 | 
从 人 名 相关 的 句子 中 自动 抽取 出 语言 学 结构 ， 例 如 同位 语 Cappositive) MEHA Cproposi- 
tion)， 以 回答 “Who is X?” 形 式 的 传记 型 问题 。 最 近 ，TREC 2004— 2007 提出 了 多 种 定义 
型 的 QA 解决 策略 。Kaisser、Scheible 和 Webber [79] 提出 了 一 个 简单 有 效 的 Web 强化 策 
略 ， 即 利用 候选 关键 词 在 Web 搜索 结果 中 的 出 现 频率 对 候选 回答 进行 评分 。Qiu 等 [80] 从 
源 文 本 中 抽取 出 句子 集合 ， 并 利用 结合 了 句法 特征 、 信 息 检 索 分 数 和 语言 模型 的 统计 模型 对 
其 排序 。 非 英语 语种 的 定义 型 QA 也 在 CLEF [10] 和 NTCIR [11] 中 有 涉及 。 

NRRC 对 多 视角 间 答 ( Multi-Perspective Question Answering, MPQA) 的 研讨 会 
[81] 探讨 了 如 何在 文本 语料库 中 识别 和 组 织 观点 。Stoyanov、Cardie 和 Wiebe [82] fr 
绍 了 一 个 包含 观点 问题 和 已 标注 文档 集合 的 数据 集 ， 在 回答 观点 问题 时 ， 利 用 基于 统计 学 
和 规则 的 过 滤器 剔除 掉 事 实 型 信息 。 处 理 观 点 问题 、 观 点 持 有 者 和 观点 对 象 等 的 QA 系统 
在 TAC 2008 中 被 评测 过 [9]。 效 果 最 好 的 系统 [83] 采用 情感 词典 ， 在 候选 段落 中 识别 
出 代表 正面 和 反面 观点 的 术语 。 


http: //trec. nist. gov/. 
http://www, nist, gov/tac/ 。 

http: //research. nii. ac. jp/ntcir/ 。 
http://www. clef-campaign-org/ 。 
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TREC 2005 QA 任务 [84] 包含 了 如 下 任务 : 系统 必须 解决 实体 间 多 种 关系 类 型 的 问 
题 ， 如 金融 的 依赖 关系 、 传 播 途径 和 组 织 关系 。TREC 2006 和 2007 [8] 评测 的 复杂 交互 式 
QA 任务 的 主题 也 是 关系 型 问题 。 此 任务 是 交互 的 : 系统 向 评审 员 给 出 初始 结果 ， 在 得 到 相关 
反馈 (relevance feedback) 后 产生 最 终 的 回答 。 最 近 的 NTCIR 评测 中 也 包含 关系 型 问题 [11], 
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第 14 章 


Multilingual Natural Language Processing Applications: From Theory to Practice 


提 ” 炼 








Vittorio Casteli, Radu Florian 


14.1 概述 


提炼 是 自然 语言 处 理 (NLP) 中 一 个 新 兴 的 非 传 统 分 支 ， 介 于 经 典 领 域 信息 检索 
CIR) 和 问答 系统 (QA) 之 间 。 

5 IR 不 同 ， 提 炼 的 目的 是 以 检索 结果 集中 的 一 个 或 者 多 个 段落 为 依据 ， 为 查询 提供 
答案 ， 而 不 是 根据 用 户 查 询 来 抽取 相关 的 文档 或 者 段落 。 提 炼 答 案 可 能 来 自 于 段落 中 抽取 
的 片段 ， 也 可 能 是 合成 的 。 提 炼 查 询 可 能 非常 复杂 ， 并 且 需 要 复杂 的 答案 。 例 如 ， 考 虑 如 
下 示例 : 

Describe the reactions of «COUNTRY to <EVENT> 
这 里 EVENT 六 可 以 通过 一 个 或 多 个 自然 语言 句子 指定 。 对 此 问题 的 答案 可 能 是 相当 复杂 
的 。 因 此 ， 提 炼 的 目标 不 仅 要 返回 事实 ， 而 且 还 要 根据 复杂 的 查询 确定 复杂 的 答案 。 

正如 我 们 不 和 久 将 看 到 的 ， 提 炼 不 是 全 局 语 篇 理解 的 代名词 。 提 和 炼 领域 最 新 进展 的 主要 
推动 力 来 自 于 DARPA 全 球 目 主语 言 开 发 计划 (Global Autonomous Language Exploita- 
tion，GALE)， 它 的 任务 就 是 提炼 ， 根 据 直 接 或 隐 式 的 查询 ， 以 易于 理解 的 形式 ， 提 供 相 
关 的 、 综 合 的 信息 …… 分 析 的 数据 应 该 是 海量 的 多 语言 的 语音 和 文本 。 本 章 详细 介绍 
GALE 对 提炼 任务 的 解释 ， 并 且 讨 论 提炼 系统 的 多 模式 和 多 语言 的 问题 。 在 GALE rp, 
提炼 任务 可 以 依靠 适量 的 世界 知识 (比如 ,众所周知 的 日 宫 通 常 表 示 美 国政 府 行政 部 门 ， 
而 不 是 与 词 定 义 一 致 的 特定 建筑 ; 然而 ， 现 任 南 卡罗来纳 州长 的 政治 派别 不 是 可 以 用 作 提 
炼 的 世界 知识 ) 。 另 外 ， 只 有 少量 的 推理 是 允许 的 ， 因 此 提炼 系统 不 需要 通过 图 灵 CTur- 
ing) 测试 。 

在 GALE 中 ， 用 户 查询 通过 模板 (template) 指定 。 模 板 由 以 下 几 个 部 分 组 成 : 具有 
一 个 或 多 个 参数 (argument) 的 问题 (question). ， 外 加 可 选 的 一 个 或 多 个 参数 的 等 价 项 
(equivalent term); 能 复述 全 部 或 部 分 查询 的 相关 术语 (related term); 以 及 限制 条 件 
(restriction)， 包 括 感 兴趣 的 日 期 、 文 档 日 期 、 源 端 语言 、 源 端的 形式 (音频 或 者 文本 ) 
以 及 源 端 的 特征 (有 结构 的 还 是 无 结构 的 )。 

本 章 所 讨论 的 提炼 方法 ， 在 很 大 程度 上 是 语言 独立 的 ， 因 为 提炼 依赖 于 基本 的 NLP 
技术 ， 比 如 提 及 检测 、 句 法 分 析 和 语义 角色 标注 ， 并 建立 在 统计 方法 基础 之 上 。 这 种 整合 
的 方法 握 弃 特定 于 语言 的 多 数 细节 ， 如 语料库 的 标记 和 用 于 统计 方法 的 底层 特征 的 开发 ， 
与 此 同时 ,保持 高 层 的 方法 和 架构 不 变 。 

本 章 从 一 个 比较 有 目的 性 的 例子 开始 来 说 明 提 炼 的 范围 和 为 NLP 带 来 的 主要 挑战 ， 
同时 还 讨论 了 两 个 概念 : 答案 与 查询 的 相关 性 (relevance) 和 不 同 答案 的 元 余 度 (redun- 
dancy) 。 然 后 详细 描述 Rosetta Consortium 针对 GALE 计划 而 开发 的 提炼 系统 。 本 章 结 尾 
则 概述 了 用 于 提炼 的 各 个 方面 和 多 语言 提炼 的 几 种 方法 。 


14.2 示例 
考虑 以 下 查询 : 


WHAT CONNECTIONS ARE THERE BETWEEN [the Israeli pull-out of Gaza | 
(between 2005-05-01 and 2005-09-30) AND [the Gaza security situation ]? 

此 示例 的 模板 是 : WHAT CONNECTIONS ARE THERE BETWEEN [event] AND 
[topic]。 模 板 中 有 两 个 参数 : BA-—B<EVENT>., B] “the Israeli pull-out of Gaza”; 
ZZ FE<TOPIC>, Hl “the Gaza security situation”。 参 数 一 限定 在 时 间 域 内 : 与 查询 
相关 的 是 发 生 在 2005-09-01 至 2005-09-30 SAI AYE “the Israeli pull-out of Gaza”. Th 
对 参数 二 “the Gaza security situation” 并 没有 限定 时 间 域 。 

相关 答案 的 示例 如 下 : 

1) Since then, Palestinians have continued to fire rocket from Gaza, and Israel has 
carried out periodic air strikes. 

2) Israeli settlers and troops withdrew from Gaza last September, though the security 
situation for Gazans has deteriorated since then, with the Palestinian Authority unable or 
unwilling to confront the gunmen. 

第 一 个 答案 中 , “then” HTA “Israeli pull-out” WAR, BAER, "September" 
解析 为 “September 2005", 

第 一 个 答案 是 相关 的 ， 因 为 答案 建立 了 事件 与 有 关 主 题 的 两 个 事实 之 间 的 时 间 关 系 : 
1) 巴勒斯坦 继续 从 加 沙发 射 火 箭 (Palestinian have continued to fire rocket from Gaza); 
2) 以 色 列 开展 定期 的 空袭 (Israel has carried out periodic air strikes)。 而 第 二 个 答案 同 
样 在 事件 和 两 个 事实 之 间 建 立 了 时 间 关 系 ， 也 是 相关 的 : 1) 安全 局 势 已 经 恶化 (the secu- 
rity situation has deteriorated); 2) 巴勒斯坦 当局 不 能 或 者 不 愿意 面 对 持 枪 者 (the Pal- 
estinian Authority is unable or unwilling to confront the gunmen), 

不 相关 答案 的 示例 如 下 : | 

1) Israeli Prime Minister Ariel Sharon previously pointed out that Egypt's role in the 
disengagement plan will be solely a security role. 

2) Israel on Friday threatened to restrict travel and trade across Gaza's border if the 
Palestinians did not respond to Israeli security concerns within 48 hours at the recently reo- 
pened Rafah border crossing on Gaza's southern frontier with Egypt. 

第 一 个 答案 描述 了 以 色 列 撤 出 加 沙 (Israeli pull-out from Gaza) 这 一 方面 ， 但 是 没 
有 反映 加 沙 的 安全 局 势 (security situation in Gaza)， 以 及 两 事件 之 间 的 关系 信息 。 同 样 ， 
第 二 个 答案 涉及 加 沙 的 安全 局 热 (security situation in Gaza)， 但 是 与 以 色 列 撤 出 无 关 
(Israeli pull-out from Gaza), 


现在 考虑 下 面 的 答案 : 


Since the Israeli pullout, Palestinians have continued to fire rockets from Gaza. 
这 个 答案 显然 是 相关 的 ， 但 是 此 答案 没有 为 第 一 个 相关 答案 增加 信息 。 因 此 ， 当 第 一 
个 相关 答案 已 知 时 ， 此 答案 是 元 余 的 。 


14.3 相关 性 和 元 余 性 
基于 GALE 计划 对 响应 的 定义 来 讨论 相关 性 和 宛 余 性 。 响 应 由 一 个 主要 片段 、 多 个 
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支持 片段 和 多 个 引用 组 成 。 
。( 主 ) 片段 (snippet) 由 以 下 部 分 组 成 : 1) 来 目 文档 的 一 段 文本 ; 2) 这 段 文本 的 
FM; 3) Bi; 4) 复述。 为 了 讨论 简便 ， 征 义 一 个 由 一 个 句子 组 成 的 文本 片段 。 
。 支持 片段 (supporting snippet) 是 一 个 至 少 给 主 片 段 中 的 某 些 相关 信息 提供 额外 
文 持 的 片断 ， 并 且 不 包含 与 主 片段 无 关 的 信息 。 

* 引用 (citation). 是 生成 主 片 段 或 者 支持 片段 的 文字 摘录 。 

总 的 来 说 ， 为 了 回答 查询 ， 提 炼 系统 必须 识别 包含 与 查询 相关 的 文本 的 句子 ， 将 这 些 
句子 分 为 不 同 的 集合 ， 集 合 之 间 没 有 宛 余 ， 并 且 适 当地 报告 具有 代表 性 的 句子 的 内 容 ， 这 
些 句 子 能 够 刻画 出 集合 中 包含 的 信息 。 提 炼 系统 还 应 该 进一步 报告 那些 能 验证 代表 性 句子 
的 其 他 句子 的 内 容 。 代 表 性 句子 的 相关 内 容 可 以 是 摘录 、 总 结 或 者 复述 ， 最 终结 果 是 主 片 
段 。 与 主 片段 相关 联 的 集合 有 以 下 特点 : 集合 中 的 每 个 句子 至 少 包 含 与 查询 相关 的 某 些 信 
息 ， 并 且 这 些 信息 同样 包含 在 该 集合 的 代表 性 句子 〈 该 集合 的 主 片段 ) 中。 同样 ， 给 定 任 
何 一 对 答案 集合 ， 每 一 个 对 应 的 代表 性 句子 至 少 包含 一 些 与 查询 相关 、 但 不 包含 在 其 他 代 
表 性 句子 中 的 信息 。 因 此 ， 给 定 集 合 的 主 片段 ， 那 么 每 个 支持 片段 都 是 元 余 的 ， 但 是 主 片 
BEZIER. Æ GALE 计划 中 ， 只 对 主 片段 两 两 之 间 的 元 余 性 做 出 要 求 ， 而 不 考 
虑 找 出 一 个 主 片段 的 集合 的 需求 ， 这 样 集合 中 的 每 个 元 素 都 与 其 他 元 素 是 非 元 余 的 。 本 章 
采用 这 个 简化 的 假设 。 

支持 片段 为 主 片段 描述 的 部 分 或 者 全 部 相关 信息 提供 额外 的 证 据 。 因 为 片段 来 自 句 子 的 
某 个 部 分 ， 所 以 相同 的 句子 可 以 为 不 同 的 主 片段 生成 “〈 不 同 的 ) 支持 片段 ， 虽 然 不 是 对 多 个 
主 片 段 进 行 提 及 。 

根据 对 相关 性 和 宛 余 性 的 一 般 理解 ， 我 们 现在 探索 这 些 概 念 中 一 种 可 能 的 精确 定义 。 
考虑 以 下 查询 : 

PROVIDE INFORMATION ON | Former Lebanese Prime Minister Rafik Hariri | 
以 及 与 它 相 关 的 句子 : 

A U.N. investigation into the truck bombing that killed Hariri and 20 others on 
Feb. 14 concluded in a preliminary report that the attack was the work of high-ranking Syr- 
ian and Lebanese intelligence officers. 

此 答案 至 人 少 包含 四 个 原子 信息 片段 :Hariri 已 死亡 ， 是 被 谋杀 的 ; YET TCETESREZE 
is 于 2 月 14 死亡 (日 期 应 该 被 系统 解释 为 2005/02/14); 还 有 叙利亚 和 黎巴嫩 的 高 级 情 
报 人 员 与 此 次 袭击 有 关 的 一 些 线索 。GALE 中 的 原子 信息 片段 称 作 “ 块 ”(nugget)。 下 面 
是 相关 的 句子 : 

But Khaddam did not specifically accuse Assad of making or participating in the decision to as- 
sassinate Hariri. 

此 名 与 之 前 的 句子 至 少 有 一 个 共同 的 块 : Hariri 被 暗杀 。 如 果 前 一 个 句子 整体 作为 一 
个 主 片段 ， 那 么 后 者 可 以 作为 其 支持 片段 。 接 着 考虑 查询 的 其 他 答案 : 

Months before his assassination, the late Hariri, a self-made billionaire and once ally of the 
Syrian regime, had voiced strong opinions that Syria should stop interfering in Lebanese affairs. 

上 面 句 子 至 少 包含 四 个 块 : D Hariri Bik, WER; 2) Hariri 是 白手 起 家 的 亿 万 富 
$3; 3) Hariri 在 某 时 间 与 叙利亚 结盟 ; 4) Hariri 被 谋杀 之 前 的 数 月 ， 曾 直言 不 讳 地 反对 
叙利亚 在 黎巴嫩 的 政治 主张 。 这 个 句子 可 以 作 另 一 个 主 片段 ， 因 为 此 名 并 不 与 我 们 构造 的 
第 一 个 主 片段 共享 所 有 信息 块 。 因 此 只 要 其 中 每 个 主 片段 至 少 存在 一 个 块 不 包含 在 男 一 个 
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主 片 段 中 ， 两 个 共享 信息 块 的 主 片段 (Hariri 已 亡 ， 被 谋杀 的 ) 就 是 可 以 接受 的 。 

一 个 待 解决 的 问题 : 如 何 将 一 个 句子 分 割 成 块 。GALE 的 提炼 标注 指南 建议 依据 句子 
中 的 动词 和 其 他 谓词 L1j， 从 概念 上 把 句子 分 解 为 简单 的 子 句 。 与 查询 相关 的 子 句 包 含 一 
个 信息 块 ， 块 可 以 根据 捕获 的 信息 分 为 不 同 的 类 别 。GALE 中 块 的 类 别 有 : 人 物 、 地 理 政 
治 实体 (Geopolitical Entity，GPE)、 组 织 机 构 、 头 衔 、 数 值 短 语 、 命 题 块 、 时 间 短 语 、 
方位 短语 、 修 饰 块 和 陈述 。 

除了 命题 块 和 修饰 块 ， 大 多 数 块 是 不 言 而 喻 的 ， 下 面 详细 介绍 这 两 种 块 。 命 题 块 主要 
围绕 着 片段 的 主要 相关 谓词 构造 ， 由 谓词 及 其 主要 论 元 构成 。 修 饰 块 是 动词 的 一 个 表示 因 
果 、 方 式 和 其 他 修饰 语 的 涵盖 性 范畴 ， 但 不 包括 时 间 和 方位 范畴 。 例 如 ， 一 个 包 庄 的 收 件 
人 、 目 标 、 原 因 、 目 的 和 工具 性 短语 。 它 们 常 表现 为 一 个 从 名 ， 描 述 原因 、 响 应 、 解 释 ， 或 
者 对 另 一 个 相关 从 名 的 影响 。 例 如 句子 : 

Making good on his main campaign pledge. Bolivia's President Evo Morales ordered 
troops to occupy the country's oil and natural gas fields on Monday and issued a decree giv- 
ing the government majority control over the energy industry, 

上 面 的 句子 是 下 面 问 题 的 相关 答案 : 

LIST FACTS ABOUT EVENT: Bolivian President Evo Morales' takeover of gas fields, 

{a BIR "Making good on his main campaign pledge”( 郊 现 他 的 主要 竞选 承诺 ) 描述 的 
是 玻利维亚 总 统 埃 沃 莫 拉 莱 斯 为 什么 占领 国家 的 石油 和 天 然 气 地 区 (Bolivia's President Evo 
Morales ordered troops to occupy the country’s oil and natural gas fields) 的 原因 或 理由 。 

现在 可 以 根据 块 来 定义 宛 余 性 。 首 先 ， 如 果 块 和 ns 传达 相同 的 信息 ， 则 抉 ni 和 
no 是 等 价 的 ; 比如 Pierre Cartier X T RAZE “Pierre Cartier bought the Hope Dia- 
mond” +5 Cartier 购买 了 和 希望 之 星 "Cartier purchased the Hope Diamond” (这 里 把 Cart- 
ier 解释 为 Pierre Cartier) 是 等 价 的 。 

如 果 S, 和 Sz 为 两 片段 ，Ni AN: 是 与 它们 对 应 的 块 集合 ， 如 果 Ne 和 Ni =O, MAX 
FAEK S., 是 元 余 的 。 

因此 如 果 S 和 S. 是 对 应 于 相同 查询 的 两 个 主 片 段 ， 那 么 有 NAO, NAO, Ne \ 
Ni 天 0O，NN\IJNz 天 O， 也 就 是 说 ， 两 个 主 片段 都 至 少 包含 一 个 块 ， 且 至 少 有 一 个 块 是 另 一 
片段 没有 的 。 如 果 S 是 一 主 片段 ，S1 是 其 中 一 个 支持 片段 ， 对 应 的 块 集合 是 Ni ， 那 么 
Ni 关 0 和 NiSGNi， 也 就 是 说 ， 支 持 片 段 对 应 的 块 集合 是 主 片段 对 应 块 集合 的 子 集 。 


14.4 Rosetta Consortium 提炼 系统 


本 节 主 要 介绍 一 个 实际 的 提炼 系统 ， 该 系统 是 GALE 计划 的 一 部 分 ， 由 IBM 领导 的 
Rosetta 团队 开发 ， 该 团队 是 GALE 参与 成 员 之 一 。 系 统 是 为 了 从 庞大 的 、 多 语 混合 文本 
和 语音 记录 组 成 的 语料库 中 提炼 问答 而 设计 的 ， 语 料 库 语言 涉及 英语 、 阿 拉 伯 语 和 汉语 。 
文本 可 以 认为 有 两 类 : 有 结构 〈 即 新 闻 ) 和 无 结构 〈 即 网 络 博客 )。 类 似 地 ， 音 频 也 包括 
有 结构 〈 即 演播 室 里 的 新 闻 记 录 ) 和 无 结构 〈 即 现场 记者 的 新 闻 报 道 ) 两 种 。 

提炼 系统 包括 三 个 明确 的 步骤 : HSA. BWR. SAW. 


14.4.1 文档 和 语料库 准备 


在 文档 准备 阶段 ， 对 音频 记录 进行 转录 ， 并 且 把 其 他 语言 的 文本 和 文字 记录 翻译 成 英 
语 。 英 语 和 其 他 语言 的 文档 通过 IBM 信息 抽取 系统 [2] 进行 分 析 。 信 息 抽 取 过 程 中 对 文 
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档 执行 词 元 化 、 过 滤 HTML 标签 、 大 小 写 还 原 (特别 对 于 自动 转换 得 到 的 文本 )、 进 行 句 
法 分 析 、 提 及 检测 和 指 代 消解 。 利 用 抽取 到 的 信息 ， 检 测 出 提 及 对 之 间 的 关系 ， 并 且 将 语 
义 角 色 标 记 与 句法 树 节 点 关联 起 来 。 

isch. IEE. MIAH. HRW AIA AE ERK [3]; JF 
列 化 解码 由 Viterbi 算法 [4] 完成 。 提 及 检测 引擎 识别 命名 实体 提 及 和 17 种 事件 类 型 的 
Hin. Wal 36 种 实体 类 型 中 的 命名 提 及 ， 名 词性 提 及 和 代词 提 及 ， 并 标记 它们 的 跨度 和 
中 心 词 的 范围 。 事 件 的 锚 点 为 动词 、 名 词性 动词 或 者 名 词 。 

提 及 关系 基于 Bell 树 [5] 的 算法 进行 消解 ， 从 左 到 在 对 提 及 进行 分 析 。 通 过 树 结构 
对 提 及 与 实体 之 间 的 连接 过 程 建 模 。 第 一 个 提 及 对 应 第 一 个 实体 ， 相 应 地 ， 树 的 根 节点 就 
产生 了 。 当 第 二 个 提 及 出 现时 ， 可 以 连接 到 第 一 个 实体 ， 也 可 以 连 到 一 个 新 的 实体 。 通 过 
在 树 结构 中 生成 一 条 边 和 一 个 节点 来 表示 每 种 可 能 的 操作 。 每 个 新 提 及 都 通过 重复 的 过 程 
完成 消解 ， 最 终 树 的 叶子 节点 表示 文档 中 检测 到 的 提 及 的 所 有 可 能 类 别 ; 叶子 节点 的 数目 
PRIE Bell 数 [6]。 当 碰 到 新 实体 时 需要 扩展 节点 ， 共 指 算法 利用 二 值 最 大 信 分 类 器 计算 此 
提 及 连接 到 一 个 实体 的 概率 ; 为 节点 中 现 有 的 每 个 实体 创建 一 个 分 支 ， 增 加 新 的 分 支 就 意 
味 着 一 个 新 的 提 及 。 每 个 分 支 都 被 赋予 概率 值 ， 表 明 新 的 提 及 与 相关 实体 之 间 的 连接 概 
X, H MaxEnt 分 类 器 计算 得 出 ， 并 保证 它们 的 和 为 1。 每 个 实体 都 有 一 个 规范 提 及 ， 上 典 
型 的 是 文档 中 的 最 长 名 称 提 及 。 

关系 检测 是 建立 在 描述 的 其 他 阶段 之 上 的 预 处 理 过 程 。 关 系 引 人 擎 确定 36 种 关系 提 及 ， 
这 些 关 系 提 及 是 实体 提 及 之 间 的 关系 或 者 实体 提 及 与 事件 锚 点 之 间 的 关系 ， 由 各 句子 中 的 文 
本 显 式 支持 。 这 些 关 系 提 及 本 质 上 与 自动 内 容 抽取 评测 [7] (Automatic Content Extraction, 
ACE) 中 的 概念 类 似 ， 可 认为 是 它 的 一 个 适当 的 超 集 。 关 系 提 及 有 多 种 属性 ， 包 括 关 系 类 型 
(包含 ACE 关系 中 的 类 型 与 子 类 型 )、 关 系 中 提 及 的 顺序 〈 非 对 称 关 系 中 区 分 提 及 的 角色 )、 
HA (现在 时 、 过 去 时 、 将 来 时 ， 或 者 表明 无 时 间 限 制 的 不 定时 )、 特 异性 (决定 此 关系 是 
否 存 在 于 特定 或 者 普通 实体 之 间 )。 关 系 通 过 级 联 的 最 大 炉 模 型 抽取 ， 是 Kambhatla [8」 描 
述 的 模型 的 扩展 。 级 联 的 第 一 步 建立 关系 提 及 的 存在 ， 下 一 步 抽 取 前 面 描述 的 属性 。 

与 实体 提 及 的 情况 一 样 ， 关 系 提 及 自动 连接 到 文档 级 别 的 关系 上 ;特别 地 ， 相 同 实体 对 
的 提 及 之 间 的 同类 型 〈 且 同 顺 序 ， 如 果 关 系 是 对 称 的 ) 的 关系 连接 到 相同 的 文档 级 关系 。 没 
有 统计 模型 能 够 用 来 完成 这 项 任务 ， 相 反 ， 依 据 共 指 链 来 确定 性 地 执行 该 任务 。 

ACE 式 的 关系 不 足以 描述 文本 建立 的 实体 之 间 的 所 有 连接 。 预 处 理 过 程 中 ， 实 体 之 
间 额 外 的 连接 被 抽取 出 ， 而 这 些 连接 并 不 是 文档 显 式 表明 的 ， 也 不 在 一 个 句子 的 内 部 描 
述 。 这 些 扩展 关系 由 一 个 模块 识别 ， 这 个 模块 最 初 是 为 2009 文本 分 析 会 议 的 知识 库 填 充 
任务 (TAC-KBP) [9] 的 插 槽 填充 任务 而 开发 的 。 参 与 插 槽 填充 任务 的 人 员 被 要 求 分 析 
一 个 大 型 文本 语料库 ， 抽 取出 人 物 、 组 织 机 构 、 地 理 政治 实体 的 特定 属性 (在 评估 时 指 
定 )。 所 需 的 属性 类 似 于 维基 百科 的 信息 框 插 柳 [10]， 它们 的 值 不 仅仅 局 限于 文本 中 单个 
句子 的 显 式 支持 。 用 一 个 简单 例子 可 以 说 明 家 庭 关 系 “Bob and his mother Mary went to 
the mall. His brother John remained at home”, X B fR u MERA “Mary is John's 
mother”( 假 设 这 里 的 兄弟 是 指 亲 兄弟 ), 但 是 此 关系 并 没有 在 一 个 单独 的 句子 中 显 式 地 体 
现 ， 因 此 ACE 式 的 关系 不 能 捕 提 这 类 事实 。TAC-KBP 任务 解决 这 类 问题 的 方法 是 : 建 
立 在 关系 检测 和 指 代 模型 上 的 基于 规则 的 系统 。 | 

it RB ASK MF HAE X. 共 指 规则 、 关 系 规 则 、 导 出 关系 规则 (表示 推导 出 
来 的 关系 )。 共 指 规则 依据 共 指 链 。 考 虑 下 面 规则 : 
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IF (X IS-A Person Entity) AND CY IS-AN Occupation) AND 

CY ISCOREFERENT WITH X) THEN (X PER: TITLE=Y) 

在 下 面 摘录 中 : 

Barack Obama concluded his visit to China on Wednesday. The President expressed 
hope for further Sino-US cooperation. 

上 述 规则 发 现 两 个 人 物 提 及 : 名 字 (Barack Obama) 和 名 词性 职务 (President); 共 指 系 
统 将 它们 连接 到 文档 中 的 同一 实体 ， 因 此 建立 一 条 规则 ， 即 TAC-KPB fü fé! "Barack 
Obama" Bj “PER: TITLE" fH “President”, 

关系 规则 在 一 个 或 多 个 关系 和 共 指 链 的 基础 上 进行 推导 。 比 如 ， 在 先前 的 例子 中 得 到 
的 关系 规则 是 Mary 是 John 的 妈妈 “Mary is John's mother" , 481 

导出 关系 规则 是 关系 规则 的 扩展 ， 可 基于 抽取 其 他 关系 和 导出 关系 规则 的 模 ， 以 及 
ACE 式 的 关系 和 共 指 链 进 行 推导 。 例 如 如 下 的 导出 关系 规则 : 

IF (X IS-A Person) AND (X ISPARTOFMANY G) AND (G HASTITLE T) THEN 

(X HASTITLE T) 

当 上 述 规 则 应 用 于 句子 “Fifteen Senators supported the bill, including John Mc- 
Cain”， 则 抽取 出 信息 John McCain 具有 “Senators” 头 衔 。 这 些 规 则 可 应 用 到 单个 文档 ， 
抽取 的 槽 和 值 可 以 看 作 问 答 系统 中 ACE 式 的 关系 。 

为 了 建立 索引 和 回答 查询 准备 语料库 的 最 后 一 步 要 处 理 跨 文档 共 指 (CrossDocument 
Coreference，XDC) ， 为 语料库 的 每 个 实体 赋予 唯一 的 ID。 因 此 ， 实 体 “BaracR Obama” 
与 其 出 现 的 每 一 个 文档 中 的 “44rd U. S. President” AFAIK ID, mM “George Bush, 
NANSCAR driver" 5j "George W. Bush, 43rd U.S. President" 有 不 同 的 ID。 跨 文档 
共 指 依赖 于 为 2009 TAC-KPB 实体 链接 任务 而 建立 的 系统 ， 该 任务 为 接受 任务 的 参与 者 提 
供 数据 库 ( 称 为 知识 库 ， 每 个 实体 都 有 对 应 的 文档 描述 )。 查 询 的 形式 是 一 个 实体 名 称 和 一 
篇 提供 消 歧 信 息 的 文档 。 如 果实 体 在 知识 库 中 ， 则 答案 是 基于 知识 的 实体 ID, BWAS. 

实体 链接 系统 可 以 扩展 成 一 个 XDC 算法 。 首 先 通 过 加 强 知 识 库 进 行 扩 展 ; Rosetta 的 
提炼 系统 中 ， 把 dbpediae 数据 库 与 TAC-KBP 知识 库 合 并 。 第 二 种 扩展 是 选择 用 来 替代 
消 歧 文档 的 文本 ;选择 的 文本 由 包含 文档 级 实体 提 及 的 句子 集 构成 。 有 了 这 两 项 改变 ， 
XDC 可 以 被 转换 成 为 每 个 文档 级 实体 分 配 唯一 知识 库 ID 的 问题 。 

这 导致 了 第 三 种 扩展 : 为 不 在 知识 库 中 的 实体 分 配 ID。 为 了 发 现 扩 展 知识 库 中 的 实 
体 需 要 以 下 两 个 阶段 的 处 理 : 第 一 阶段 包括 基于 字符 三 元 组 的 快速 名 字 匹 配 。 这 种 简单 方 
法 对 拼写 变 体 和 印刷 错误 具有 和 鲁 棒 性 ， 因 为 绝 大 多 数 情况 下 正确 的 实体 在 前 50 个 命中 中 。 
这 种 方法 也 是 高 效 的 ， 因 为 它 很 容易 在 标准 的 搜索 引擎 上 实现 ， 如 开源 的 Lucene。 前 50 
个 实体 由 第 二 阶段 深入 分 析 ， 其 中 结合 了 复杂 的 名 称 相 似 度 分 值 ， 这 种 SoftTFIDF 相似 
EK HÄ SecondString 包 [11]， 还 结合 了 上 下 文 匹 配 分 值 。 上 下 文 匹配 分 值 基于 余弦 相似 
EHA., 衡量 文档 级 别 的 实体 与 知识 库 中 候选 者 上 下 文中 的 非 停 用 词 之 间 的 重合 度 。 后 者 
从 候选 者 的 维基 百科 信息 框 抽 取 。 如 果 快 速 匹配 和 精细 匹配 的 分 值 超过 在 保留 数据 集 上 学 
习 到 的 阔 值 ， 那 么 匹配 成 功 。 如 果 匹 配 失 败 ， 则 意味 着 实体 不 在 知识 库 中 ， 且 没有 关联 的 
知识 库 ID， 那 么 采取 回 退 策略 。 回 退 策 略 的 做 法 是 为 快速 匹配 或 精 匹 配 成 功 的 文档 级 实 
体 赋 予 XDC ID， 并 为 剩余 的 实体 赋予 唯一 的 ID, XDC ID 是 最 相似 的 知识 库 实 体 〈 即 匹配 
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成 功 且 得 分 最 高 的 实体 ) 的 标识 符 ， 但 加 上 一 个 可 区 分 的 前 缀 。 这 种 方法 的 基本 原理 是 ,两 
个 表示 现实 世界 中 同一 实体 的 文档 级 实体 很 有 可 能 指向 同一 个 “最 相似 的 ”知识 库 实体 。 


14.4.2 索引 


文档 使 用 开源 搜索 引擎 Lucene 建立 索引 。 索 引 人 允许 对 文档 文本 的 词 袋 式 搜索 和 命名 
实体 的 查询 。 为 了 支持 后 者 ， 除 了 名 词性 提 及 和 代词 性 提 及 ， 对 其 余 实 体 提 及 都 建立 两 种 
索引 : 用 于 准确 匹配 的 完整 词 形 索 引 和 用 于 并 元 匹配 的 词 元 索引 。 


14. 4.3 查询 回答 


查询 回答 提炼 系统 以 GALE 格式 查询 作为 输入 ， 如 引言 所 述 ， 返 回 主 片 段 列表 和 相 
关 的 支持 片段、 引用 ， 并 按 与 查询 的 相关 度 降序 排序 。 系 统 架 构 由 五 部 分 组 成 : 查询 预 处 
H, ÄRR., FRW., KRAAM., WE. 

1. 查询 预 处 理 

查询 预 处 理 阶 段 完 成 对 查询 组 件 的 信息 抽取 : 和 参数、 相关 术语 和 等 价 术语 。 对 它们 进 
行 词 元 化 、 句 法 分 析 和 语义 角色 标注 ， 检 测 提 及 并 且 使 其 指向 相关 实体 。XDC 系统 酌情 
为 检测 到 的 实体 赋予 跨 文档 ID. XF PERSON, ORGANIZATION, LOCATION, GPE 
和 COUNTRY 等 类 型 的 参数 ， 查 询 预 处 理 阶段 识别 主 实体 ， 检 测 辅 助 指 代 ， 并 确定 它们 
与 主 实体 的 关系 。 对 于 EVENT、TOPIC 或 CRIME 等 参数 类 型 ， 预 处 理 阶 段 则 另外 计算 
参数 、 相 关 术 语 和 等 价 术 语 的 依存 树 。 

一 个 查询 实例 : 

DESCRIBE INVOLVEMENT OF | Russia] IN [attempts to freeze Iran's nuclear program | 
有 两 个 参数 ， 第 一 个 是 “COUNTRY” 类 型 ， 第 二 个 是 “EVENT” 类 型 ; 它们 都 没有 相 
关 术 语 和 等 价 术 语 。XDC 系统 为 俄国 “Russia” 赋 予 合适 的 跨 文档 ID. X EVENT 的 定 
义 进行 信息 抽取 : 文本 词 元 化 、 名 法 分 析 、 提 及 检测 (Iran)， 且 XDC 系统 为 Iran 赋予 
一 个 XDC ID, 


2. 文档 检索 

从 提炼 查询 组 件 抽取 的 信息 用 来 搜索 Lucene 5|. Lucene 查询 由 非 终结 符 和 所 有 实 
体 组 成 ， 其 中 实体 从 提炼 查询 的 组 件 中 抽取 。 男 外 ， 把 预 处 理 阶段 为 命名 实体 赋予 的 所 有 
XDC ID 当 作 参数 ， 用 于 搜索 引擎 查询 。 搜 索引 擎 查询 的 结果 是 文档 的 集合 ， 每 个 文档 都 
赋予 分 值 。 搜 索引 擎 返回 最 大 指定 数目 的 文档 。 因 为 所 有 文档 都 作为 后 续 阶 段 的 输入 ， 所 
以 可 通过 权衡 整个 系统 的 召回 率 和 期 望 的 响应 时 间 来 确定 文档 的 最 大 数目 。 可 以 采用 不 同 
的 标准 方法 选择 此 参数 ， 比 如 利用 保留 集合 拟 合 数值 。 男 外 ， 根 据 文档 得 分 上 自 适 应 地 选择 
文档 数目 的 方法 同样 是 有 效 的 。 在 Rosetta 提炼 系统 中 ， 采 用 的 是 第 一 种 方案 ， 检 索 到 的 
文档 数目 固定 为 500。 

在 预 处 理 的 例子 中 ， 查 询 要 求 检 索 包 含 “Russia” 和 “Iran” 两 个 提 及 的 文档 ， 也 包 
SEG AARC ANIA “attempts”, “freeze”, “unclear” Fl "program" WRR TERK. 

3. 片段 过 滤 | 

提交 到 搜索 引擎 的 查询 返回 大 量 文档 的 集合 ， 通 常 都 与 提炼 查询 相关 。 下 一 步 要 确定 
文档 的 相关 部 分 并 生成 非 元 余 片 段 。 一 些 类 型 的 文档 ， 特 别 是 长 的 新 闻 组 日 志和 转录 新 
闻 ， 通 向 文档 中 的 大 部 分 与 查询 无 关 ; 同时 它们 的 大 小 使 得 对 其 进行 详细 的 整体 分 析 是 不 
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现实 的 。Rostta 提炼 系统 的 解决 方案 是 构建 高 召回 率 的 过 滤 阶 段 ， 挑 选 出 相关 性 高 的 名 
子 ， 同 时 丢弃 大 量 无 关 句 子 。 此 阶段 基于 启发 式 方法 或 者 少量 特征 集 的 统计 模型 。 例 如 对 
于 查询 模板 “DESCRIBE RELATION BETWEEN <PERSON1> AND <PERSON2>”, 
当 两 者 的 提 及 出 现在 同一 句子 中 或 者 出 现在 相 邻 的 句子 中 时 ， 一 条 简单 的 启发 式 规则 就 可 
以 起 作用 ， 达 到 在 丢弃 大 量 无 关 句 子 的 同时 保证 较 高 的 召回 率 的 目标 。 对 于 其 他 模板 ， 可 
能 用 到 更 复杂 的 统计 方法 。 这 些 方法 类 似 于 片段 处 理 阶段 用 到 的 方法 ,但 是 更 简单 些 ， 接 
下 来 几 节 详细 讨论 这 些 方法 。 在 任何 适当 的 时 候 ， 系 统 记录 那些 通过 片段 过 滤 句 子 的 分 
值 ， 这 些 分 值 可 以 用 于 主 片段 预 处 理 的 回 退 策略 。 

对 于 上 述 实 例 ， 片 段 过 滤器 会 检索 出 所 有 包含 Russia 或 者 代表 Russia 提 及 的 片段 。 
因为 此 阶段 目的 是 高 召回 率 ， 所 以 很 多 不 相关 的 句子 也 能 通过 ， 例 如 : 

Russia frustration at Iran's refusal to send uranium to Russia and France for processing into 
fuel hints at the possibility that Moscow may be open to a new UN Security Council resolution. 

Russian President Dmitry Medvedev stated that there is agreement over sanctions for 
Iran but that this is still not the desired path. 


Moscow and Tehran announced that Russia will build a nuclear reactor in Bushehr. 


4. 片段 处 理 

片段 处 理 阶 段 有 两 个 目的 ， 一 是 为 通过 片段 过 滤 阶 段 的 句子 赋予 相关 度 ， 另 一 个 是 确 
定 信 息 ， 这 些 信息 在 规划 阶段 用 来 构成 主 片段 、 支 持 片段 和 引用 。 根 据 模 板 ， 如 果 句 子 描 
述 了 参数 的 属性 (例如 模板 形式 :“PROVIDE INFORMATION ON <ORGANIZATION >), 
涉及 参数 的 事件 或 动作 (例如 模板 PRODUCE A BIOGRAPHY OF <PERSON>), 或 者 
参数 之 间 洪 在 的 复杂 的 相互 作用 (例如 DESCRIBE THE INVOLVEMENT OF <COUN- 
TRY IN 二 EVENT>)， 和 那么 句子 与 查询 是 相关 的 。 如 果 参 数 相 当 复 杂 ， 那 么 判定 一 个 
句子 是 否 与 某 个 参数 相关 是 一 项 具有 挑战 性 的 任务 〈 例 如 对 于 参数 二 EVENT 二 和 过 TOP- 
IC 盖 ) 。 尽 管 可 以 手工 创建 模板 依赖 、 基 于 规则 的 系统 ， 即 系统 将 为 句子 分 配 相 关 性 分 值 ， 
但 是 这 种 方式 既 不 便宜 ， 又 不 具备 可 伸缩 性 。 

Rosetta 提炼 系统 的 片段 处 理 阶段 依赖 于 基于 模板 的 层次 统计 打分 模型 ， 模 型 利用 手 
工 标注 的 数据 训练 。 由 于 训练 层次 模型 并 重新 利用 标注 数据 训练 其 他 模型 ， 这 种 方法 具备 
可 伸缩 性 。 实 体 参 数 的 参数 模型 是 模型 层次 结构 的 基础 ， 目 的 是 检测 句子 是 否 包含 或 者 描 
述 人 物 、 组 织 机 构 、 地 上 点、 国家、 地 理 政治 实体 等 查询 参数 的 主要 实体 。 用 来 学 习 参 数 模 
型 的 学 习 算 法 是 投票 感知 机 [12]， 在 小 规模 训练 集 上 ， 稍 微 优 于 最 大 炉 模 型 。 训 练 数据 
格式 为 三 元 组 (QUERY, SENTENCE, LABEL), 其 中 QUERY 是 简单 问题 ， 形 式 如 
DOES THE SENTENCE CONTAIN <ARGUMENT>. ix SENTENCE 一 个 句子 ， 并 
附加 指向 句子 来 源 文 档 的 指针 ; LABEL 是 标注 人 员 依 据 参数 标注 指南 ， 手 工 指派 给 句子 
的 二 值 数 据 。 标 注 指 南 指出 了 各 种 不 同类 型 的 参数 在 句子 中 被 提 及 的 诸多 方式 。 

三 元 组 (QUERY, SENTENCE, LABEL) 通过 特征 抽取 转换 成 特征 向 量 集 。 可 以 依 
据 输入 空间 对 特征 抽取 器 进行 归 类 ; QUERY-ARGUMENT, SENTENCE, QUERY- 
ARGUMENT X SENTENCE, QUERY-ARGUMENT X DOCUMENT, QUERY-ARGU- 
MENT X SENTENCE X DOCUMENT, 

例如 ， 如 果 一 个 二 PERSON 二 类 型 的 参数 包含 的 标题 具有 和 输入 空间 QUERY-ARGU- 
MENT， 那 么 特征 抽取 上 堪 开 始 起 作用 ， 并 检测 一 个 句子 是 否 包 含 输入 空间 为 SENTENCE 
的 片段 。 更 为 复杂 的 特征 抽取 器 比较 句子 中 感 兴 趣 的 提 及 与 主 参数 所 及 的 XDC ID， 这 是 
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输入 空间 为 QUERY-ARGUMENT X SENTENCE 的 一 个 实例 。 

众多 特征 抽取 器 ， 比 如 匹配 XDC ID 的 特征 抽取 器 、 近 似 匹配 句子 和 参数 中 提 及 的 文 
本 的 特征 抽取 器 ， 已 经 广泛 用 于 参数 模型 中 。 其 他 特征 抽取 器 根据 特定 参数 类 型 构建 : 例 
如 ， 因 为 国家 经 常用 他 们 的 行政 官员 提 及 (Dmitry Medvedev 是 俄罗斯 的 有 效 代理 人 )， 
或 者 用 隐喻 提 及 (白宫 常常 指 美国 ， 伦 敦 常 常 指 英国 )， 当 国家 模型 (country model) 检 
测 到 句子 中 国家 的 指 代 或 者 表示 国家 的 隐喻 时 ， 即 启用 其 特征 函数 。 

检测 复杂 参数 EVENT 和 TOPIC 的 层次 结构 类 型 的 模型 : 一 些 特征 来 自 其 他 参数 模 
型 的 输出 。 通 过 含有 人 物 、 组 织 机 构 、 国 家 、GPE， 或 者 地 点 的 提 及 的 一 个 或 多 个 句子 或 
者 短语 ， 可 以 指定 EVENT Al TOPIC, Pa, “The collapse of Lehman Brothers " && 
一 个 组 织 提 及 , iit “AIG sells Alico unit to MetLife” 包 含 三 个 组 织 机 构 提 及 ， 它 们 之 间 
具有 复杂 的 关系 。 参 数 中 的 提 及 在 查询 预 处理 过 程 中 识别 ， 如 果 合 适 的 参数 模型 在 句子 中 
发 现 参 数 匹配 ， 则 可 用 于 特征 抽取 器 。 例 如 句子 “Om 9/15 the firm filed for Chapter 11 
bankruptcy protection”, 3X BH zx n] Lehman Brothers 是 和 第 一 个 查询 相关 的 ， 事 件 模 型 包 
含 特征 抽取 器 ， 用 于 从 查询 参数 中 选择 “Lehman Brothers”, JE] Fl ORGANIZATION 
模型 将 它 匹 配 到 名 词性 提 及 “firm”， 并 作为 结果 。 

为 了 在 复杂 查询 参数 的 提 及 中 捕获 内 部 依赖 以 及 相关 的 非 停 用 词 ， 模 型 需要 根据 高 级 
特征 ， 如 匹配 句子 中 和 参数 中 的 ACE 式 关 系 的 特征 ， 以 及 当前 句子 和 查询 参数 中 的 提 及 
与 非 停 用 词 之 间 匹 配 依赖 结构 的 特征 ， 参 见 [13]. 

Rosetta 提炼 系统 使 用 为 每 个 模板 训练 的 统计 模型 为 句子 打分 。 这 些 模型 根据 双 层 方 
式 进行 特征 抽取 。 第 一 层 ， 找 出 参数 模型 ， 这 些 模型 检测 到 句子 中 有 参数 存在 时 ， 则 生成 
适当 的 特征 并 捕捉 句子 词汇 、 句 法、 语义 方面 的 特征 。 这 些 特征 抽取 器 会 留 下 “痕迹 ”， 
也 就 是 说 能 够 识别 触发 特征 抽取 的 句子 的 特定 部 分 。 第 二 层 由 抽取 器 组 成 。 当 识别 出 “ 痕 
Ue” (HAA) ENA. MRE, AeA. BOTH 
取 器 自己 也 能 留 下 “痕迹 ”， 因 此 能 有 层次 地 结合 。 

当 查 询 参 数 是 复杂 类 型 时 ， 比 如 上 EVENT 和 TOPIC， 决 定 句子 与 查询 的 相关 度 是 相 
当 有 挑战 的 。 在 基于 实体 的 查询 中 ， 句 子 中 没有 实体 提 及 则 意味 着 这 个 句子 是 不 相关 的 ， 
与 之 不 同 的 是 ， 关 于 事件 和 主题 的 信息 通常 体现 在 不 包含 参数 描述 的 句子 里 。 例 如 ， 关 于 
特定 主题 的 新 闻 文 章 通常 以 涉及 主题 的 内 容 开 始 ， 然 后 提供 未 显 式 地 提 及 主体 的 信息 。 为 
了 克服 这 个 困难 ，Rosetta 提炼 系统 的 模板 模型 从 已 评分 的 句子 周围 句子 的 一 定 窗口 的 上 
下 文句 子 中 提取 特征 。 选 择 的 特征 抽取 器 应 用 于 这 些 窗口 的 句子 中 ， 统 计 哪 些 起 作用 ， 并 
分 析 产 生 特 征 ， 我 们 称 为 上 下 文 特征 (context feature). | 

对 模板 模型 分 析 的 句子 打分 ， 并 记录 触发 特征 的 “痕迹 ”。 将 具有 能 表明 相关 性 的 已 
评分 的 句子 用 作 规 划 阶 段 的 输入 ， 剩 余 的 丢弃。 如 果 相 关 句 子 的 个 数 低 于 用 户 指 定 的 阔 
值 ， 则 回 退 策略 启动 ， 再 次 执行 片段 过 滤 ， 并 把 在 过 滤 阶 段 产 生 的 得 分 最 高 的 那些 句子 添 
加 到 结果 集中 。 

参考 所 举 的 例子 ， 片 段 处 理 是 为 了 能 选择 以 下 相关 句子 而 设计 的 : 

Russia frustration at Iran's refusal to send uranium to Russia and France for processing into 
fuel hints at the possibility that Moscow may be open to a new UN Security Council resolution. 

Russian President Dmitry Medvedev stated that there is agreement over sanctions for Iran but 
that this is still not the desired path. 


并 且 丢弃 以 下 句子 ， 
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Moscow and Tehran announced that Russia will build a nuclear reactor in Bushehr. 


5. 规划 
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子 ， 确 定 非 元 余 片 段 、 支 持 片 段 并 支持 引用 。 规 划 器 依赖 句子 的 分 值 和 片段 处 理 器 产生 的 特 
征 “ 痕 迹 ”。 句 子 按 分 数 降序 分 析 。 分 数 最 高 的 句子 自动 成 为 主 片段 的 引用 。 选 择 包 含 所 有 
特征 “痕迹 ”的 句子 跨度 ， 并 在 句法 分 析 树 中 找 出 离 树 根 最 远 的 、 能 覆盖 这 个 跨度 的 构成 部 
分 ， 然 后 找 出 句子 中 与 此 构成 部 分 对 应 的 文本 ， 这 些 文本 就 构成 了 主 片段 的 引文 。 至 少 包含 
一 个 未 出 现在 任何 其 他 主 片段 中 的 特征 “痕迹 ”的 句子 构成 一 个 新 的 主 片段 。 支 持 片段 的 构 
建 方法 与 主 片段 相 同 。 对 上 述 构 建 策略 的 加 强 包 括 : 设置 一 个 小 于 IB8)BIf. f84rLE Bd [HL 5S 
最 好 句子 的 得 分 的 乘积 高 的 句子 才能 作为 主 片段 和 支持 片段 的 候选 ， 而 其 他 的 句子 只 能 作为 
支持 片段 的 候选 。 系 统 强 制 将 片段 处 理 器 认为 具有 高 可 信 度 的 相关 句子 选 为 主 片段 。 

考虑 之 前 例句 ， 规 划 阶 段 对 

Moscow might be open to a new UN Security Council Resolution 
和 

Russian President Dmitry Medvedev stated that there is agreement over sanctions for 
Iran but that this is still not the desired path 
进行 标记 ， 以 作为 包含 相关 信息 的 句子 成 分 。 因 为 激发 而 检索 片段 的 特征 具有 不 同 的 “ 痕 
迹 ”， 因 此 规划 器 认为 这 两 个 句子 可 以 分 别 作 为 主 片段 。 


14.5 其 他 提炼 方法 

详细 介绍 特定 提炼 系统 之 后 ， 本 节 简 单 回顾 文献 中 描述 的 一 些 提 炼 方 法 。 特 别 地 ， 讨 
论 一 些 系 统 的 架构 和 用 于 相关 性 检测 与 降低 元 余 的 方法 。 结 尾部 分 简要 介绍 基于 语音 数据 
和 转录 数据 的 多 模 态 方法 和 依赖 源 语言 文本 及 其 翻译 文本 的 多 语言 方法 。 并 不 关心 其 他 的 
文档 检索 方法 ， 因 为 这 对 提炼 系统 来 说 是 唯一 的 ， 所 以 本 节 并 未 涉及 文档 检索 。 


14.5.1 系统 架构 

典型 地 ， 提炼 系统 遵循 如 下 通用 架构 :首先 利用 信息 检索 技术 生成 抽取 文档 的 一 般 框 
架 ， 然 后 分 析 文 档 中 的 句子 [14, 15, 16]. Lin [17] 提出 另外 一 种 方法 ， 文 章 中 讨论 了 
信息 抽取 在 复杂 查询 问答 中 的 作用 。 该 文章 讨论 了 两 个 主要 问题 : IR 技术 是 否 能 单独 用 来 识 
别 句子 ， 这 种 句子 与 比 事实 性 问题 更 复杂 的 问题 相关 ; IR 技术 是 否 可 以 用 于 降低 或 者 消除 抽 
取出 的 句子 之 间 的 元 余 。 作 者 得 出 结论 : 不 能 仅 使 用 IR 技术 抽取 与 复杂 问题 相关 的 句子 ; 
相反 ， 结 果 也 指出 IR 技术 具备 处 理 元 余 问 题 的 能 力 。 


14.5.2 相关 度 

Lin [17] 的 研究 是 提炼 系统 的 前 身 ， 文 章 讨论 了 回答 关系 询问 (relationship ques- 
tion) 的 问题 。 在 2005 年 ， 作 为 TREC 问题 回答 跟踪 [18] 的 一 部 分 ， 关 系 询 问 被 正式 
提出 。 关 系 询问 提出 如 下 问题 : X SY 如 何 相 互 作 用 ? 或 者 X 如 何 影响 Y? 这 里 X AY 
可 以 是 实体 、 事 件 或 主题 。 例 如 用 户 可 能 问 “ 凡 尔 赛 条 约 对 国际 联盟 的 建立 有 什么 影响 ”。 
Lin 探索 传统 信息 检索 技术 ， 特 别 是 句子 检索 ， 对 回答 关系 询问 到 底 有 多 大 影响 。 作 者 构 
造 了 一 些 简单 的 特征 : 段落 匹配 分 值 ， 基 于 查询 和 候选 句子 出 现 的 特有 术语 的 逆向 文档 频 
率 值 (IDF fA) 计算 ; 术语 IDF 和 召回 率 ; 句子 长 度 。 通 过 线性 回归 模型 组 合 这 些 特征 ， 
得 到 相关 度 度量 。 上 述 简单 的 模型 优 于 仅 依赖 IR 分 值 的 基准 系统 ， 特 别 是 当时 长 度 限 定 
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为 1000 个 字符 或 者 更 少时 。 

Levit 等 人 [15] 描述 了 IXIR 提炼 系统 中 基于 统计 的 相关 性 检测 方法 。IXIR 的 高 层 结构 
与 Rosetta 系统 类 似 ， 显 著 的 不 同 点 在 于 将 片段 过 滤 与 片段 处 理 融 合 。 与 Rosetta 系统 一 样 ， 
查询 相关 性 由 特定 模板 统计 系统 建立 ， 该 系统 依赖 于 广泛 的 特征 。 这 种 方法 的 核心 如 下 : 
IXIR 系统 为 每 个 句子 构建 包含 这 些 特 征 的 图 示 ， 称 为 图 表 (chart)。 图 表 是 基于 句子 的 词 构 
建 的 图 ， 图 中 的 边 用 与 其 相连 的 节点 的 特征 标注 。 最 简单 的 词汇 特征 是 : B 直接 跟 在 A 之 
后 ， 其 中 A 与 为 句子 中 的 单词 。 类 似 地 ， 句 法 关系 、 依 存 关 系 、 语 义 角 色 标 注 关系 等 在 图 
中 也 通过 边 表示 。 当 表示 命名 实体 参数 时 ，IXIR 试图 通过 各 种 已 知 策略 检测 所 说 实体 是 否 在 
句子 中 ， 比 如 近似 匹配 检测 、 拼 写 变形 检测 、 同 义 词 词典 、 地 名 表 、 修 饰 符 字 探 测 器 和 
WordNet [19]。 如 果 匹 配 成 功 ， 系 统 就 为 这 个 句子 的 图 表 增 加 一 层 结构 ， 描 述 匹 配 在 哪 以 及 
如 何 发 生 。 一 旦 图 表 构 建 完 成 ， 就 可 用 于 为 检测 参数 是 否 出 现在 句子 中 的 统计 分 类 器 计算 特 
征 。 这 些 特 征 是 传统 的 词 n 元 组 的 扩展 。 词 n 元 组 可 以 通过 简单 图 表 中 有 nn 一 1 条 边 的 路 径 
生成 ， 这 个 图 表 仅 包含 形 如 A 后 面 跟随 B 之 类 的 词汇 特征 。IXIR 的 特征 是 nn 元 组 ， 由 图 中 
具有 "一 1 条 边 的 路 径 生 成 ， 而 不 管 边 是 由 哪些 特征 产生 的 。 复 杂 的 参数 (例如 事件 ) 的 处 
理 有 点 不 同 ，IXIR 计算 参数 摘 述 的 图 表 ， 并 从 参数 图 表 和 和 句子 图 表 中 抽取 特征 。 

Kamangar [20] fll Kamangar $A [21] 主张 使 用 无 监督 学 习 方 法 进行 句子 抽取 。 首 
Jc. 确定 少量 可 能 相关 的 句子 集合 以 及 可 能 不 相关 的 句子 集合 ， 然 后 提出 三 种 基于 查询 参 
数 的 词 干 化 的 非 停 用 词 的 方法 。 第 一 种 方法 是 通过 词 频 (TF) 选择 ， 计 算 候 选 句 子 中 非 
停 用 词 的 词 频 ， 同 时 计算 平均 值 ， 保 留 词 频 高 于 平均 值 的 词 。 标 记 包 含 所 有 保留 词 的 句子 
为 正 例 句子 ， 不 包含 任何 保留 词 的 句子 为 反例 句子 ; 第 二 种 方法 基于 TF-IDF HR, ih 
保留 查询 参数 中 TF-IDF 值 足 够 大 的 单词 ; 同样 的 方法 用 来 标记 正 例句 子 和 反例 句子 ， 通 
过 独立 的 训练 数据 学 习 TF-IDF Bf; 第 三 种 方法 认为 所 有 查询 参数 中 的 非 停 用 词 同等 重 
要 ， 将 至 少 包 括 部 分 上 述 非 停 用 词 的 句子 标记 为 正 例 ， 将 不 包括 任何 一 个 的 句子 标记 为 反 
例句 子 。 最 初 的 句子 集 用 于 迭代 的 自 训 练 算法 : 从 自动 产生 的 正 例句 子 和 负 例 句子 训练 出 
的 分 类 器 用 于 分 类 不 在 训练 集中 的 候选 句子 。 分 类 器 必须 给 出 句子 的 分 值 或 者 后 验 概率 估 
计 ， 得 出 的 结果 用 来 选择 其 他 的 正 例句 子 (那些 得 分 大 于 从 训练 集 学 习 到 的 闽 值 的 句子 ) 
和 反例 句子 〈 得 分 小 于 从 训练 集中 学 习 到 的 另 一 国 值 的 句子 ) 。 当 没有 新 的 正 例 或 反例 句 
子 产生 或 达到 最 大 迭代 次 数 时 ， 和 迭代 过 程 终 止 。 


14. 5:3. Jte 


降低 元 余 并 不 只 存在 于 提炼 问题 中 ，TREC 的 新 奇 跟 踪 (novelty track) [22] 很 早 就 涉 
及 这 个 问题 。Lin [17] 为 将 包含 在 增 量 式 构造 的 答案 集 A 中 的 新 候选 c 定义 了 效用 函数 : 
Utility(c) =Relevance(c) —A max sim Cs,c) 
其 中 Relevance 的 计算 如 先前 描述 ，sizz 为 相似 度 函 数 ， 比 如 余弦 相似 度 ，4 为 需要 调节 的 参 
数 。Lin 比较 了 三 种 度量 相关 度 的 方法 : 第 一 种 利用 求 最 大 数 运算 的 回归 分 数 计算 相关 度 ， 夯 
两 种 是 使 用 max 和 average 作为 聚合 函数 ， 计 算 基 准 系统 的 相关 度 分 数 。 利 用 POURPER [23] 
分 值 作为 评测 度量 ， 对 4 进行 调 参 。 实 验 发 现 以 检测 元 余 为 目的 ，mazx 操作 优 于 average 操作 。 


14.5.4 多 模 态 提炼 


在 GALE 中 ,评测 是 在 包含 几 十 万 文档 的 多 模 态 、 多 语言 大 语料库 上 进行 的 。 语 料 
库 的 一 部 分 是 录音 材料 ， 处 理 基 于 录音 材料 提问 的 基本 方法 是 : 首先 自动 把 这 些 录音 材料 
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转录 成 文本 ， 将 中 文 和 阿拉 伯 语 的 转录 文本 翻译 成 英文 文本 ， 然 后 在 这 些 英文 文档 上 运行 
标准 的 提炼 系统 。 与 纯 文 本 〈 如 新 闻 ) 提炼 相 比 ， 转 录 和 翻译 的 错误 会 大 大 降低 系统 的 性 
能 。Yaman FA [24] 分 析 了 转录 错误 为 提炼 带 来 的 影响 ， 报 告 称 系统 性 能 降低 了 35%. 
他 们 提出 在 片段 处 理 阶 段 使 用 锚 点 语音 识别 (Anchored Speech Recognition, ASR) 的 方 
法 来 解决 这 个 难点 。 他 们 假设 ， 存 在 片段 过 滤 阶 段 ， 该 阶段 可 以 确定 候选 片段 并 过 滤 明 显 
不 相关 的 片段 。 包 含 查询 答案 的 片段 可 以 分 成 两 种 : 一 种 是 片段 中 答案 和 问题 的 措辞 类 
似 ; 男 一 种 是 两 者 措辞 不 同 。 文 章 描述 了 分 析 前 一 种 情况 的 方法 ， 并 声称 可 以 扩展 该 方法 
来 处 理 后 一 种 情况 。 给 定 查询 集 ， 通 过 现 有 的 语言 模型 从 查询 问题 中 识别 词 短 语 。 对 每 一 
个 问题 ， 建 立 一 个 匹配 问题 中 词 序 列 的 词 网 络 ， 同 时 允许 周围 有 其 他 词 ， 但 不 能 与 问题 中 
的 词 交 义 。 结 合 来 自 偏 置 语言 模型 的 偏 置 词 格 和 为 特定 问题 建立 的 词 网 络 ， 强 制 解码 器 仅 
接受 包含 查询 的 词 网 络 的 路 径 。 然 后 为 结果 路 径 重 新 打分 ， 如 果 无 返回 结果 ， 则 采用 适当 
的 纠正 措施 ， 包 括 降低 识别 的 约束 。 当 答案 包含 问题 的 准确 措辞 且 无 介 人 词 时 ， 降 低 约 柬 
后 上 述 方法 的 效果 会 更 好 。 作 者 实验 表明 ， 该 方法 能 帮助 提炼 系统 修复 30%% 转 录 带 来 错 
VR. 并且 正 确 答案 相关 词 错误 率 降低 了 37%，。 


14.5.5 跨 语 言 提炼 


跨 语言 信息 检索 是 最 近 探 索 的 领域 L25j。 检 索 其 他 语言 形式 书写 的 文档 语料库 ， 给 

出 英语 形式 的 答案 ， 这 一 任务 向 传统 的 信息 检索 系统 提出 了 新 的 挑战 。 解 决 此 问题 最 简单 

的 两 个 方案 是 : 1) 搜索 其 他 语言 的 语料库 ， 然 后 翻译 检索 结果 ; 20 首先 自动 翻译 语 料 

库 ， 然 后 在 翻译 的 结果 上 进行 信息 检索 。 前 者 局 限于 有 限 的 语言 资源 ， 这 些 资源 用 于 训练 
和 构建 IR 或 提炼 系统 的 基本 部 件 。 后 者 局 限于 当前 机 需 翻 译 的 水 平 : 目 动 翻译 的 文档 包 
含 许多 错误 、 不 符合 语法 的 句子 、 糟 糕 的 音译 专 有 名 词 和 其 他 错误 ， 它 们 都 会 影响 信息 的 
抽取 。 混 合 使 用 这 两 种 方法 可 能 会 更 有 效 。McCarley [26] 证 明了 这 一 点 ， 他 对 比 了 路 语 
言 信 息 检 索 的 三 种 方法 : 翻译 查询 、 翻 译 语 料 库 以 及 赋予 文档 前 两 种 方法 所 得 绪 果 的 数学 
均值 的 混合 方法 。 在 各 种 数据 集 上 ， 混 合 方法 的 结果 都 比 其 他 两 种 方法 好 。 令 人 惊讶 的 
是 ， 甚 至 当 把 查询 人 工 翻译 成 语料库 语言 时 ， 混 合 方法 也 是 最 好 的 。 

Parton 等 人 [27] 主要 讨论 如 何 为 提炼 设计 跨 语言 信息 检索 。 作 者 的 方法 称 作 跨 语 言 
信息 检索 (Translingual Information Retrieval，TIR)， 在 检索 索引 如 何 建 立 、 查 询 如 何 执 
行 方面 ， 与 McCarley 的 方法 不 同 。McCarley 为 原始 文档 及 其 翻译 文档 分 别 建立 案 引 ， 而 
Parton 等 人 提出 为 每 个 文档 及 其 翻译 文档 建立 单一 索引 。 以 英文 表达 的 提炼 查询 被 翻译 出 
来 ， 并 基于 查询 的 原始 文本 和 翻译 文本 构建 IR 查询 ， 并 在 蜂 语 言 的 索引 上 检索 。 最 后 ， 
作者 提出 基于 原始 查询 与 翻译 查询 纠正 潜在 翻译 错误 的 方法 。 

Singla 和 Hakkani-Tür [14] 讨论 了 处 理 汉 语 语料库 和 阿拉 伯 语 料 库 时 路 语言 片段 的 
问题 。 作 者 在 英语 语料库 上 建立 一 个 统计 片段 处 理 模型 ， 正 如 Hakkani-Tür 和 Tür [28] 
所 描述 ， 同 时 在 源 语言 端 建立 类 似 模 型 。 提 出 两 种 方法 融合 它们 : J5 9 BE dd (ÉD RUZ S. 
在 后 验 概率 插值 方法 中 ， 通 过 源 语言 模型 为 候选 句子 评分 ， 并 使 用 英语 语言 模型 为 候选 句子 
的 翻译 评分 ; 最 后 对 这 两 个 分 数 进行 凸 插 值 。 层 到 两 个 模型 的 方法 利用 由 模型 得 出 的 概率 估 
计 作 为 男 一 个 模型 的 输入 特征 。 作 为 模型 联合 的 一 种 蔡 换 方法 ， 作 者 从 源 语言 句子 及 其 翻译 
中 抽取 特征 ， 并 将 其 作为 单个 联合 片段 处 理 模型 的 输入 。 文 章 显 示 了 对 于 英语 和 阿拉 伯 语 的 
查询 ， 山 模型 插值 似乎 优 于 其 他 方法 ， 也 优 于 源 语言 片段 处 理 方法 。 

跨 语言 提炼 是 很 有 前 途 的 领域 ， 但 仍 处 于 初级 阶段 : 当前 的 成 果 是 单 语 言 技 术 的 逻辑 
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扩展 ,或 者 说 仅 构 成 了 初步 的 探索 ; 例如 Singla 和 Hakkani-Tür [14] 只 根据 简单 的 词汇 特 
fit (n 元 组 ) 生成 结果 。 然 而 ， 随 着 可 用 的 语言 学 资源 日 益 增 多 ， 这 些 资 源 可 以 用 来 构建 或 
者 提高 基本 的 信息 抽取 组 件 ， 这 些 都 清楚 地 表明 不 久 的 将 来 可 能 会 取得 实质 性 的 进展 。 


14.6 评测 和 指标 


提炼 系统 的 评测 比 问答 系统 、 信 息 检 索 系 统 的 评测 更 复杂 。 传 统 的 评测 指标 : 精确 
度 、 召 回 率 和 下 值 ， 它 们 都 是 信息 检索 系统 性 能 的 评估 指标 。 大 量 的 文献 讨论 了 如 何 评价 
信息 检索 系统 (参见 Vorhees [29]). 

增加 评测 提炼 结果 难度 的 因素 主要 有 三 个 : 查询 的 复杂 度 、 答 案 的 格式 和 需要 在 单个 
评测 指标 中 融合 系统 输出 的 多 个 方面 。 即 使 系统 是 基于 模板 的 ， 但 提炼 查询 寻找 语义 复杂 
的 查询 的 答案 ， 比 如 涉及 事件 。 决 定 一 段 信息 是 否 与 查询 有 关 ， 可 能 取决 于 如 何 解 释 这 个 
查询 ， 因 此 结果 往往 是 很 主观 的 。 这 种 原因 显然 在 宛 余 检 测 中 也 存在 : 给 定 相 同 查询 的 两 
段 回答 信息 ， 检 测 元 余 即 意味 着 识别 出 只 出 现在 其 中 某 个 回答 中 的 信息 片 ( 块 );， 并 决定 
这 些 块 是 否 与 查询 相关 。 正 如 之 前 讲 到 的 ， 提 炼 查 询 的 答案 是 复杂 的 : 包含 一 个 主 片 段 
(从 文档 或 者 其 复述 中 提取 的 文本 片段 )、 额 外 的 包含 部 分 或 全 部 主 片段 信息 的 支持 片段 ， 
一 个 或 者 多 个 引用 (搜索 语料库 文档 中 的 真实 摘录 )。 这 时 会 出 现 一 个 问题 : 如 何 解释 答 
案 中 不 同 组 件 的 错误 。 例 如 ， 返 回 不 相关 主 片 段 的 错误 比 返回 相关 片段 的 不 相关 引用 的 错 
误 更 严重 。 此 外 ， 还 会 出 现 一 些 其 他 情况 : 例如 考虑 产生 相同 主 片 段 和 相同 的 引用 ， 但 不 
同 的 支持 片段 的 两 个 系统 ;是 否 有 简单 的 方法 评价 哪个 答案 更 好 ? 最 后 的 难题 是 ， 如 何 构 
建 一 个 能 够 捕捉 答案 的 相关 性 、 不 同 主 片段 的 元 余 性 和 返回 结果 完备 性 的 评价 指标 。 


GALE 计划 的 评价 指标 

GALE 计划 研究 这 个 问题 已 经 多 年 了 了， 下面 描述 为 Year4 Go/No Go 评测 提出 的 指标 
[30]. GALE 指标 的 目的 是 比较 提炼 系统 的 性 能 与 利用 最 先进 的 搜索 技术 的 人 类 分 析 家 的 性 
能 。 特 别 是 ， 对 每 个 查询 ， 给 分 析 家 30— 60 分 钟 的 时 间 ， 要 求 给 出 与 提炼 系统 格式 相同 的 
答案 ( 主 片段 、 支 持 片 段 和 引用 )。 对 来 自分 析 家 和 系统 的 结果 进行 人 工分 析 ， 如 下 所 示 。 

1， 相 关 度 分 析 . 

首先 ， 最 少 通过 两 名 人 工 评判 员 将 每 一 个 主 片段 标记 为 相关 ， 部 分 相关 或 者 不 相关 。 
将 包含 答案 的 相关 和 部 分 相关 的 片段 的 实际 部 分 标记 出 来 ， 标 记 出 来 的 部 分 自动 标记 为 
块 ， 其 余部 分 作为 上 下 文 。 人 工 评判 员 对 自动 划 块 的 结果 复审 并 纠正 。 不 相关 的 片段 同样 
划 块 以 生成 错误 的 块 ， 这 对 与 精确 度 相关 的 数量 计算 有 影响 。 每 个 评判 员 赋 予 块 一 个 相关 
分 数 : 1 表示 完全 相关 块 ; 0. 8 表示 部 分 相关 块 ; 0 表示 非 相 关 块 。 对 不 同 评判 员 给 出 的 
分 数 求 平均 ， 得 到 块 最 终 的 相关 分 数 。 

2. JUR ES I 

人 工 评判 员 分 析 片 段 的 完 余 性 。 对 每 一 对 主 片段 ， 人 工 评判 员 比 较 对 应 块 ， 并 识别 包含 
相同 语义 信息 的 块 对 。 两 个 主 片段 A 和 B， 如 果 A 中 至 少 存在 一 个 在 语义 上 与 B 中 的 块 不 等 
价 的 块 ， 并 且 B 中 也 至 少 存在 一 个 在 语义 上 与 A 中 的 块 不 等 价 的 块 ， 那 么 认为 A 和 BB 是非 元 
余 的 。 如 果 A 中 的 每 一 个 块 都 在 B 中 存在 语义 相等 的 块 ， 反 之 亦 然 ， 那么 A 与 B 等 价 。 最 后 ， 
如 A 中 的 每 一 个 块 都 在 B 中 存在 语义 相等 的 块 ， 那 么 A 相对 于 B 是 元 余 的 ,但 反之 不 成 立 。 

3. 引用 检查 | 

人 工 评判 员 评 定 是 否 每 一 个 引用 全 部 支持 与 它 相 对 应 (相关 且 非 元 余 ) 的 主 片段 。 如 
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果 引 用 不 能 完全 支持 相应 的 片段 ， 那 么 为 该 引用 给 予 惩罚 。 人 工 评 判 员 给 与 支持 片段 相关 
的 引用 打分 时 方法 稍 有 不 同 : 如 果 引 用 对 应 的 支持 片段 与 主 片段 有 至 少 一 个 共同 块 ， fH 
如 果 引 用 完全 支持 片段 ， 那 么 认为 引用 是 正确 的 。 
4. 主要 任务 指标 
基于 上 述 判断 产生 两 个 主要 任务 指标 ， 信 息 内 容 指 标 (information-content metric) 
和 文档 支持 指标 (document-support metric) ， 结 合 起 来 形成 一 个 性 能 评价 分 数 。 我 们 简单 
介绍 一 下 这 些 指标 ， 有 兴趣 的 读者 可 以 参考 引用 中 的 官方 评价 文档 [30]。 
信息 内 容 指 标 衡量 块 级 别 的 性 能 。 块 i 的 相关 分 数 为 R(i)， 南 余 分 数 为 D(i); 相关 
分 数 由 先前 描述 计算 得 出 ， 而 元 余 分 数 为 0 或 者 1。Ni 是 提炼 器 根据 查询 生成 的 块 的 个 
数 ， 精 确 度 的 定义 如 下 : 
SY RODG) 
N; 
召回 率 的 定义 如 下 : 
$^ RODG) 
ome MN 
假设 M; (语料库 中 相关 片段 的 总 数 ) 是 已 知 的 。 因 为 人 工 为 每 个 查询 分 析 成 千 上 万 或 者 
百 万 个 文档 是 不 可 行 的 ， 所 以 召回 率 计算 如 下 : 
3 RODG 
M; AM; 的 最 大 似 然 估 计 。 对 应 的 F 值 表 示 为 FI. 
文档 支持 指标 衡量 与 非 见 余 片 段 相 对 应 的 有 效 引 用 的 个 数 。 如 果 一 个 引用 不 与 其 他 引 
用 共享 片段 ， 那 么 该 引用 是 有 效 的 。 如 果 引 用 完全 支持 相应 的 片段 ， 且 片段 是 主 片段 或 者 
与 主 片段 至 少 存在 一 个 共享 块 的 支持 片段 ， 那 么 这 个 有 效 的 引用 是 正确 的 。 如 果 R; 是 由 
提炼 器 返回 的 正确 引用 的 个 数 ，V; 是 同一 个 提炼 器 返回 的 有 效 引 用 的 个 数 ，W; 是 语料库 
中 查询 的 有 效 引 用 的 全 部 个 数 ， 那 么 文档 支持 的 精确 度 和 召回 率 的 定义 如 下 : 
R 


R; = 


R; = 





i 
和 
Eey 
J w, 
其 中 页 为 Wi 的 估计 (实际 中 为 所 有 的 提炼 系统 和 分 析 人 员 返 回 正确 引用 的 总 数 )。 对 应 的 F 值 
表示 为 F?。 
正式 指标 定义 为 文档 下 值 的 平方 根 调整 信息 的 召回 率 : 
= FUR! 
然后 计算 调整 后 的 信息 召回 率 和 初始 信息 精确 率 的 调和 平均 值 : 
er 
Pre RE 


5. 额外 指标 
GALE year-4 评测 也 基于 其 他 指标 ， 这 些 指标 捕获 提炼 系统 特定 方面 的 性 能 。 另 外 ， 
官方 的 评测 文档 描述 了 多 种 计算 信息 召回 率 的 其 他 方法 。 这 些 方法 的 讨论 超出 了 本 章 的 范 
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畴 ， 有 兴趣 的 读者 可 以 参考 正式 评测 计划 文档 [30]. 

6. 备注 

EX, GALE 计划 提出 的 指标 的 缺点 是 需要 大 量 的 人 工 劳 力 ， 人 工 评 判 员 必须 分 析 
提炼 系统 输出 的 每 一 个 答案 ， 还 要 比较 不 同 的 答案 来 检测 元 余 。 因 此 ， 评 测 一 个 完整 的 提 
烁 系统 是 耗 时 而 昂贵 的 ， 对 提炼 系统 的 发 展 是 一 个 潜在 的 限制 。 现 在 存在 的 一 个 悬而未决 
的 问题 是 ， 如 何 构建 一 个 耗费 较 少 的 指标 来 衡量 提炼 结果 的 质量 。 特 别 地 ， 基 于 提炼 系统 
各 个 组 件 的 评价 指标 ， 为 整个 提炼 系统 建立 有 意义 的 性 能 上 界 是 有 可 能 的 。 


14.7 总结 


提炼 是 自然 语言 处 理 中 相对 较 新 的 领域 ， 弥 补 了 信息 检索 与 问答 系统 之 间 的 缺口 。 
DARPA GALE 计划 有 力 地 推动 了 该 领域 的 进步 ， 并 为 开发 和 评测 多 语言 和 跨 语言 提炼 系 
统 提 供 了 框架 。 

当前 的 提炼 方法 融合 了 信息 抽取 、QA 技术 和 新 的 统计 方法 ， 这 些 统计 方法 允许 系统 处 理 
复杂 的 查询 ， 比 如 那些 涉及 特定 事件 的 查询 。 在 现存 系统 中 ， 查 询 利 用 有 一 个 或 者 更 多 的 参数 
的 模板 指定 。 结 果 是 从 语料库 中 检索 的 摘录 段落 或 复述 段落 ， 并 将 它们 分 成 无 元 余 的 组 。 

提炼 面临 的 两 个 主要 难题 ,缺乏 可 用 于 衡量 领域 进步 的 公共 语料库 ; 评测 提炼 系统 输 
出 结果 的 难度 和 代价 ， 原 因 在 于 缺乏 自动 评测 指标 。 
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15.1 Ew 


本 章 我 们 将 讨论 商用 口语 对 话 系统 开发 的 问题 。 一 个 口语 对 话 系 统 是 一 个 复杂 的 机 
船 ， 它 可 以 管理 面向 目标 的 用 户 交 互 。 口 语 对 话 的 功能 结构 一 般 可 以 划分 成 三 个 部 分 : 语 
音 识别 和 理解 模块 、 语 音 生 成 模块 、 对 话 管理 器 。 现 有 大 量 的 关于 对 话 系 统 和 它们 各 种 各 
样 的 发 展 范 例 的 研究 文献 ;这 里 我 们 讨论 关于 设计 开发、 部 署 并 且 维 护 一 个 商用 口语 对 
话 应 用 的 问题 和 方法 。 特 别 地 ， 我们 展示 了 部 署 大 规模 对 话 系统 的 商业 组 织 是 如 何 使 用 收 
集 到 的 丰富 数据 来 持续 地 调整 系统 并 改善 它 的 性 能 。 本 章 讨论 的 问题 与 将 应 用 移植 到 一 个 
不 同 语言 的 开销 有 关 。 尽 管 提示 本 地 化 是 很 直观 的 ， 并 且 通 常 由 专业 的 人 工 翻译 来 实施 ， 
但 语音 识别 和 理解 的 本 地 化 造成 了 资源 和 开销 的 问题 。 然 而 ， 因 为 在 当代 口语 对 话 系 统 中 
文法 经 和 常 是 由 从 大 量 被 标注 的 口语 语 料 中 学 习 到 的 统计 语言 模型 和 分 类 器 实现 的 ， 我 们 可 
以 将 文法 本 地 化 问题 定义 为 语 料 翻译 问 题 。 我 们 将 展示 商业 上 可 用 的 机 需 翻 译 如 何 用 来 翻 
译 包含 几 百 万 口语 句子 的 大 规模 语 料 并 且 允 许 创建 与 特定 上 下 文 有 关 的 文法 ， 在 很 少 人 为 
干涉 的 情况 下 ， 可 以 与 人 工 调试 的 系统 性 能 相 比 。 


15.2 口语 对 话 系 统 

口语 对 话 系 统 可 能 是 最 为 广泛 接受 的 语音 识别 应 用 。 口 语 对 话 系 统 是 指 在 一 系列 连续 
的 交互 变化 中 机 器 可 以 使 用 语音 与 人 类 交谈 
的 应 用 。 最 简单 的 情况 下 ， 一 个 对 话 系 统 可 
以 由 图 15-1 的 功能 图 摘 述 。 

基于 一 个 称 作 对 话 策略 (dialog strate- 
gy) 的 规则 集 的 对 话 管理 器 (dialog manag- 
er) 控制 着 一 个 语音 生成 (speech genera- 
tion) 模块 ， 控 制 其 在 接收 到 由 一 个 语音 识 
别 和 理解 (speech recognition and under- 
standing) 模块 产生 的 用 户 语 音 的 解释 后 ， 
将 生成 怎样 的 信息 或 者 请 求 。 对 话 管理 器 也 
和 外 部 的 后 端 服务 (backend service) 通信 ， 
比如 数据 库 、 顾 客 关 系 管理 系统 (Customer Relationship Management, CRM) 或 者 网 络 ， 
从 而 抽取 出 完成 交互 必要 的 额外 信息 。 我 们 应 该 说 明 的 是 ， 这 里 所 说 的 方法 是 独立 于 具体 
语言 的 。 然 而 ， 一 些 语言 可 能 需要 一 些 进行 额外 处 理 的 应 用 ， 主 要 是 在 语音 识别 和 理解 模 
块 部 分 ， 来 处 理 词 元 的 不 同 概念 定义 。 





图 15-1 口语 对 话 系统 的 高 层 功 能 性 视图 
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15.2.1 语音 识别 和 理解 


语音 识别 引擎 是 一 个 可 以 将 输入 语音 解码 成 它 的 成 分 词 的 系统 。 理 解 模块 则 负责 将 语 
音 识别 模块 返回 的 词 串 加 上 语义 标签 。 例 如 ， 用 户 用 “Yowu pet. ”回应 一 个 提示 : "Have 
you recently reboot your PC?” 一 个 良好 的 理解 模块 应 该 返回 语义 标签 “YES”。 研 究 型 口 
语 对 话 系统 1] 经 常 在 交互 中 的 每 = 个 阶段 进行 大 规模 的 词汇 识别 ， 它 假设 使 用 者 可 能 
并 且 将 会 在 对 话 的 任何 时 候 说 任何 话 ， 这 样 系统 就 可 以 相应 地 给 出 响应 。 然 而 ， 众 所 周知 
使 用 者 说 话 内 容 的 分 布 将 受到 特定 对 话 状 态 的 影响 ， 语 言 模型 给 予 特定 上 下 文 更 适合 内 容 
的 性 质 ， 这 一 点 已 被 证 明 对 口语 对 话 系 统 的 性 能 提高 是 有 益处 的 [2]。 尽 管 现在 可 以 建立 
一 个 从 万 级 甚至 十 万 级 的 大 规模 通用 词汇 表 中 进行 解码 的 语音 识别 器 ， 但 是 理解 模块 却 做 
不 到 。 无 论 理解 模块 是 如 何 实现 的 ， 语 言 理 解 针 对 不 同 领域 都 会 不 一 样 ， 有 时 甚至 对 一 个 
需要 被 解释 表述 的 不 同上 下 文 也 会 不 一 样 。 因 为 这 些 原 因 (对 特定 对 话 上 下 文 的 语言 模型 
的 依赖 性 ， 其 至 是 对 理解 模块 更 加 特殊 的 依赖 性 )， 还 有 建立 有 效 的 统计 语言 模型 固有 的 
复杂 度 ， 以 及 缺少 特定 的 资源 ， 早 期 口语 对 话 产 业主 要 是 使 用 特定 上 下 文正 规 有 限 状 态 文 
法 或 者 基于 规则 的 文法 (rule-based grammar) 。 基 于 规则 的 文法 一 般 是 根据 SRGS 标 
MEO (Speech Reconition Grammar Specification) 编写 ， 尽 管 不 同 的 识别 引擎 支持 其 他 专 有 
的 文法 定义 语言 。SRGS fer fii FH RR AGX BS ECMAScript? 代码 写 出 任意 上 下 文 无 关 的 文 
法 规则 。 这 些 规则 会 定义 识别 引擎 接受 和 识别 的 表达 式 的 语法 。ECMAScript 依据 语义 本 
标签 定义 了 对 返回 串 的 解释 。 例 如 ， 这 是 一 个 SRGS 文法 规则 片段 ， 它 被 使 用 在 一 个 百货 
公司 的 指 路 应 用 样 例 中 : 
«rule id-"selection" scope="public"> 
<item repeat='0-1'><ruleref uri-'prefixes.xml'/»«/item» 
«one-of» 
<item><ruleref uri='#rule Footwear'/» 
<tag>out .answer='Footwear' ;</tag> 
</item> 
<item><ruleref uri='#rule_Jewelry'/> 
<tag>out .answer='Jewelry' ;</tag> 
</item> 
<item><ruleref uri='#rule MensWear'/> 





<tag>out.answer='MensWear' ;</tag> 
</item> 
<item><ruleref uri='#rule Mowers'/> 
<tag>out.answer='Mowers' ;</tag> 
</item> 
</one-of> 
</rule> 


<one-of> REM f — n Efe. 11H -—item—765X18XE. <ruleref>HA-TF 
规则 的 引用 ， 该 规则 被 一 个 相关 的 URL RR. <ta > TREA ECMAScript H E. fil 
如 ， 如 果 口 语 输 入 句子 由 规则 x rule Footwear 解析 ， 则 执行 ECMAScript 表达 式 
out. answer— ‘Footwear’, ECMAScript 的 对 象 out 在 调用 应 用 命名 空间 中 可 作为 语音 识 


© http://www. w3. org/ TR/speech-grammar/., 
©  ECMAScript( http://www. ecmascript. org/) 是 由 国际 型 组 织 ECMA 标准 化 的 脚本 语言 JavaScript 是 
ECMAScript 的 一 个 变种 。 
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INE EX. prefixes. xml 的 引用 包含 一 个 可 选 的 前 组 文法 。 
PLM S| AA # rule_Footwear 能 够 被 下 面 的 SRGS 片段 扩展 : 


«rule id="rule Footwear" scope="public"> 
<one-of> 
<item>footwear</item> 
<item>foot wear</item> 
<item>shoes</item> 
<item>boots</item> 
</one-of> 
</rule> 


这 一 规则 声明 : FE fa  — 4] H1 <item> 76 XX XE MAE AT ATA EAB AE n] A. MR I, 
“Footwear” ”将 被 赋值 给 输出 槽 Cout. answer) 。 从 例子 中 可 以 很 明确 地 看 出 ， 基 于 规则 的 文法 会 
变 得 非常 复杂 ， 并 且 可 能 包含 对 其 他 规则 和 脚本 的 引用 。 它 们 的 维护 等 价 于 复杂 代码 的 维护 。 
基本 上 不 可 以 自动 生成 ， 并 且 很 多 变化 或 者 改进 需要 由 语法 专家 手工 处 理 〈 工 业 上 认为 是 语音 
系统 专家 (speech scientist) ) 。 , 

从 功能 上 来 看 ， 一 个 文法 可 以 认为 有 
两 个 组 成 部 分 ， 如 图 15-2 所 描述 的 。 语 言 
模型 定义 了 所 有 可 能 由 语音 识别 器 处 理 的 ke cds 
WIRE, Fe A NA eee ERR quil, 语音 对 话 文法 等 价 的 功能 性 视图 
射 到 语义 标签 的 一 个 有 限 集 。 如 本 章 前 面 
所 示 ， 语 言 模型 可 以 被 一 个 基于 规则 的 文法 中 的 规则 描述 ， 并 且 语 义 分 类 器 能 够 由 
ECMAScript 代 码 实 现 。 如 果 我 们 转 到 统计 文法 领域 ,语言 模型 则 由 一 个 n 元 组 集合 定义 ， 
并 且 语 义 分 类 一 般 由 一 个 训练 好 的 统计 分 类 器 完成 ， 该 分 类 器 对 由 语音 识别 组 件 返 回 的 词 
串 进 行 处 理 。 尽 管 一 个 基于 规则 的 文法 一 般 由 手工 完成 ， 但 统计 语法 则 建立 自 一 个 大 规模 
的 样 例句 子 集 上 ， 这 些 样 本 被 转录 成 对 应 的 词 串 ， 并 且 用 相应 的 语义 标签 进行 标注 。 表 
15-1 展示 了 一 个 被 转录 和 标注 的 口语 句子 的 集合 样 例 ， 这 些 口 语句 子 主 要 来 自 人 们 对 美国 
某 大 型 光缆 公司 技术 支持 的 电话 咨询 。 被 转录 的 口语 句子 是 对 “Please tell me the reason 
for your ca ”提示 的 啊 应 。. 

表 15-1 口语 表达 的 转录 和 标注 集 示例 





转 录 标 注 

want to cancel the account SERVICE CANCEL 

cancel service SERVICE CANCEL 

cancellation of the service SERVICE CANCEL 

I want to discontinue the service SERVICE CANCEL 

I can't send a particular message to a certain group of people CANT SEND RECEIVE EMAIL 
I can't get messages on my email and Outlook Express CANT SEND RECEIVE EMAIL 
I can't receive all my email CANT SEND RECEIVE EMAIL 
I'm trying to send an email and it says it's not going through CANT SEND RECEIVE EMAIL 
my emails are not being received at the address I send them to CANT SEND RECEIVE EMAIL 
can t send CANT SEND RECEIVE EMAIL 
can't send large files CANT SEND RECEIVE EMAIL 
bounce message notification CANT SEND RECEIVE EMAIL 
message won't be sent won't send CANT SEND RECEIVE EMAIL 
it concerns mac mail I can't open it SETUP EMAIL 

when I set up the internet you didn't give the email account SETUP EMAIL 


I can't set up my email account SETUP EMAIL 
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(AE) 
转 录 标 注 
setting up email account SETUP EMAIL 
cannot configure the email SETUP EMAIL 


they registered my modem from my Internet and I need to get my email address SETUP EMAIL 
all I need is to find out how to set up my sent email box to save my sent email SETUP EMAIL 
I'd like to set up an additional email account SETUP EMAIL 


一 旦 获得 大 规模 的 转录 和 对 应 的 语义 标注 ， 一 个 统计 语言 模型 便 能 够 建立 并 用 于 约束 语 
音 识 别 副 以 及 一 个 统计 语义 分 类 器 。 该 统计 语言 模型 是 n 元 组 形式 的 ， 一 般 n 二 3， 或 者 叫 三 
元 组 。 一 个 三 元 组 是 口语 表达 中 任意 词 以 其 前 面 任意 可 能 的 词 对 作为 历史 的 概率 集合 。 所 
以 ， 如 果 上 是 某 口语 表述 中 一 个 词 的 下 标 案 引 ， 那 么 组 成 三 元 组 的 概率 集合 将 有 如 下 形式 : 

pla, | Wi—1 Wi? ) (H1) 

有 了 几 种 方式 估 测 三 元 组 ， 主 要 的 问题 是 如 何 处 理 那 些 没 出 现在 训练 集中 的 三 元 组 。 为 
了 达到 那个 目的 ， 许 多 文献 中 探讨 了 不 同 的 回 退 技术 ; 详情 参阅 第 5 章 的 语言 模型 。 

至 于 我 们 关注 的 统计 语义 分 类 器 ， 可 以 使 用 多 种 技术 。 对 应 用 于 大 规模 口语 语料库 的 
不 同 分 类 器 性 能 的 探讨 可 参见 Evanini, Suendermann 以 及 Pieraccini [3], 


15. 2.2 语音 生成 


商用 口语 对 话 系统 中 的 语音 生成 模块 非常 有 限 或 者 根本 不 存在 。 研 究 者 实验 了 在 自然 
语言 生成 (Natuaral Language Generation, NLG) 模块 之 后 使 用 文本 到 语音 模块 (Text- 
To-Speech, TTS). mi, NLG 和 TTS 相 结 合 的 解决 方案 特性 并 不 足以 支持 一 个 大 范围 
使 用 的 商业 口语 对 话 系统 。 甚 至 TTS 应 用 于 预先 定义 好 的 文本 都 会 受 限 于 一 些 情况 ， 主 
要 是 信息 的 多 变性 使 得 高 质量 提示 的 事先 录音 变 得 不 实际 也 不 可 能 。 实 际 上 ， 大 多 数 的 商 
用 系统 使 用 有 经 验 的 解说 员 和 配音 员 为 应 用 事先 录 好 所 有 需要 预先 定义 的 提示 。 对 于 复杂 
的 应 用 ， 例 如 技术 支持 客户 服务 ， 录 下 5000 一 10000 这 样 大 量 的 提示 再 正常 不 过 了 。 当 需 
要 时 ， 语 音 合 成 的 一 种 简单 形式 是 用 来 播放 可 变 的 提示 ， 例 如 任意 数字 。 


15.2.3 ”对话 管 理 器 


口语 对 话 系统 的 一 个 典型 商业 实现 中 ， 对 话 策略 被 描述 成 call-fipow CR E [5]. 
一 个 call-flow 对 应 于 一 个 有 限 状 态 机 的 规格 说 明 ， 通 常 组 织 成 层次 结构 ， 其 中 节点 代表 了 
对 话 活动 而 对 应 于 状态 的 弧 。 一 个 典型 的 活动 能 够 指导 语音 生成 模块 ， 从 而 播放 一 个 已 被 
记录 的 提示 ， 并 且 同 时 使 用 特定 的 文法 来 激活 语音 识别 模块 。 其 他 活动 可 以 查询 外 部 的 后 
端 服务 器 ， 设 置 并 且 计 算 内 部 的 变量 ， 执 行 任 意 类 型 的 计算 ， 或 者 唤醒 另 一 个 call-flow fF 
为 一 个 子 对 语 。 

历史 上 ， 口 语 对 话 管 理 器 是 首先 由 软件 工程 师 使 用 传统 的 编程 语言 (CC. Ca. Ja- 
va) 实现 的 ， 每 一 个 新 的 应 用 都 是 被 硬 编码 为 一 个 特殊 的 有 限 状 态 机 (或 者 call-flow)。 
随 着 VoiceXML 标准 一 一 最 初 由 VoiceXML 论坛 于 20 世纪 90 年 代 末 起 草 ， 然 后 被 万 维 
网 联盟 (World Wide Web Consortium, W3C9) 推荐 采用 ， 口语 对 话 应 用 开始 被 实现 为 
一 个 Web 应 用 程序 。 类 似 于 一 个 可 视 化 的 Web 浏览 器 ， 例 如 IE 和 Firefox; 在 每 一 轮 的 


© http://www. voicexml. org/ 。 
© http://www. w3. org/ TR/2007/REC-voicexml21-20070619/ , 
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交互 中 ， 一 个 语音 浏览 器 解释 一 个 标记 语言 (如 VoiceXML)， 从 而 控制 它 的 资源 〈 如 语 
音 识 别 、TTS) 。 作 为 一 个 可 视 化 的 Web 浏览 器 ， 语 音 浏览 器 使 用 HTTP 协议 与 应 用 服 
务 器 通信 ， 并 且 通 过 相应 HTTP 请 求 来 获得 VoiceXML 文档 。VoiceXML 文档 指示 浏览 
器 播放 特定 的 提示 ， 并 且 借 助 特定 的 语音 识别 器 和 文法 来 识别 输入 的 语音 。 播 放 提 示 资 
源 、ITS， 以 及 语音 识别 引擎 由 浏览 器 通过 特定 的 协议 控制 ， 例 如 媒体 资源 控制 协议 
(Media Resource Control Protocol, MRCP)9 。 

VoiceXML 标记 语言 也 包含 用 于 指示 浏览 器 通过 有 条 件 方式 取得 另 一 个 文件 的 指令 ， 
这 样 把 一 个 静态 的 call-flow 实现 为 一 个 已 链接 文档 的 集合 。 然 而 ， 随 着 应 用 复杂 度 的 不 
断 增 加 ， 正 如 在 传统 可 视 化 Web 应 用 中 发 生 的 那样 ， 开 发 者 从 静态 的 模型 静态 文 
档 集 合 一 一 转向 动态 的 模型 (基于 需求 生成 的 标签 )。 在 这 种 情况 下 ， 应 用 服务 器 运行 
一 个 程序 ， 该 程序 执行 cal-flow A RASH, 并且 在 交互 的 每 一 轮 中 动态 产生 
VoiceXMIL， 以 指导 浏览 器 播放 提示 ， 并 且 识 别 输入 的 语音 。 而 且 ， 开 发 者 能 够 构建 一 
个 通用 目的 call-flow 引擎 一 一 对 话 管 理 融 一 一 并 且 连 同 它 的 属性 使 用 一 个 指定 的 、 专 有 
的 标记 语言 指定 call-flow 的 拓扑 。 对 于 对 话 管 理 演 化 的 详细 描述 ， 请 参看 Pieraccini 和 
Huerta [6], 

图 15-3 展示 了 一 个 现代 的 商用 口语 对 话 系 统 。 交 互 语 音 应 答 (Interactive Voice 
Reponse, IVR) 平台 包含 一 个 VoiceXML 浏览 器 ， 由 它 来 解释 VoiceXML 文档 ， 还 有 一 
个 电话 接口 ， 从 而 可 以 连接 公共 电话 网 (或 者 等 价 地 ， 一 个 IP BMX). VoiceXML 浏 
览 器 通过 MRCP 协议 层 控制 着 标准 的 语音 识别 和 TTS 引擎 。 








15-3 ”现代 商用 口语 对 话 系统 的 体系 结构 


交互 由 应 用 服务 器 管理 (通过 一 个 常规 的 Web 服务 器 实现 ) ， 它 通过 由 IVR 平台 发 出 
的 HTTP 请 求 来 提供 VoiceXML 文档 。 提 示 和 文法 一 般 与 URL 相关 联 ， 并 且 可 能 寄宿 在 
与 应 用 服务 器 相同 的 一 台 Web 服务 器 上 ， 或 者 网 络 的 其 他 地 方 。 对 话 管理 可 能 偶尔 访问 





©  http://tools. ietf. org/html/rfc4463 。 
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后 端 服务 器 ， 经 常 使 用 SOAP (Simple Object Access Protocol) #4. IVR 平台 和 应 用 不 
必 在 同一 本 地 网 络 而 可 能 是 地 理 上 分 布 的 ， 就 如 同 通常 情况 一 般 。 


15.2.4 语音 用 户 接口 


对 于 一 个 给 定 的 应 用 ， 语 音 用 户 接 口 (Voice User Interface, VUD 是 用 来 描述 系统 
的 提示 是 什么 ， 在 交互 的 每 个 步骤 中 被 语音 识别 器 接受 的 表达 式 的 范围 是 什么 ， 同 时 描述 
应 用 的 一 般 逻 辑 。 一 个 call-flow 是 一 个 用 来 描述 应 用 VUI 的 有 限 状 态 机 。VUI 常 使 用 所 
见 即 所 得 (WYSIWYG) 拖 放 工具 来 开发 ， 该 开发 工具 允许 将 所 有 的 交互 细节 看 作 是 一 个 
层次 化 有 限 状 态 机 。call-flow 创作 工具 编译 用 call-flow 标记 语言 (典型 地 一 个 专 有 语言 ) 
编写 的 图 形 表示 ， 然 后 被 一 个 call-flow 应 用 引擎 使 用 ， 通 过 动态 产生 VoiceXML 实施 交 
互 。 图 15-4 是 call-flow 模块 〈 流 程 ) 的 一 个 图 解 描述 S 。 





图 15-4 使 用 WYISWYG 创作 工具 构建 的 call-flow 说 明示 例 


这 些 方 框 表示 活动 等 价 于 传统 的 过 程 编程 语言 语句 。 弧 代表 了 条 件 转移 到 其 他 活动 
的 状态 ; 也 就 是 说 它们 等 于 传统 面向 过 程 语言 中 的 if-then-else 从 句 。 图 15-4 左上 角 的 
第 一 个 状态 是 处 理 的 入 口 点 ， 并且 图 表 右 边 的 活动 ， 由 一 ServiceComplete 表明 ， 表 示 返 
回 到 调用 过 程 (在 这 里 是 主 过 程 )。 图 15-4 中 其 他 所 有 的 活动 都 是 过 程 的 引用 : 它们 和 
定义 在 类 似 图 15-4 中 的 其 他 图 上 的 子 程序 调用 相对 应 。 过 程 引用 和 传统 程序 语言 的 函数 
调用 等 价 。 例 如 ，GetService 过 程 由 图 15-5 表示 。 506 


O 这 里 以 及 本 章 剩余 部 分 ， 我 们 用 .SpeechCycle's RPA Compose 当 作 开发 高 级 语音 对 话 系 统 的 工具 的 例子 进行 讲 
解 (可 见 http://www. speechcycle. com) 。 其 他 研究 工具 也 是 公开 可 用 的 ， 比 如 卡 内 基 梅 隆 大 学 开发 的 开源 工 
具 Olympus (http; //accent. speech. cs. cmu. edu/) 还 有 麻 省 理工 学 院 提 供 的 Galaxy Chttp://group. csail. 
mit. edu/sls/technologies/galaxy. shtml) 。 
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( 7 ChooseDepartment 


Mens Wear 


| Please choose a depar... 





15-5 图 15-4 中 GetSevice 进程 的 扩展 


PRIE evall (图 15-5 A EAA) 的 活动 对 应 于 变量 getActualCallReason Mit. MRE 
量 的 计算 结果 是 4 个 可 能 值 (Footwear, Jewelry, MensWear, Mowers) 中 的 一 个 ， 那 
么 当前 过 程 会 以 一 个 合适 的 返回 值 返回 给 调用 者 。 如 果 变 量 没 有 被 赋值 〈 值 不 确定 )， 那 
么 过 程 会 到 达 一 个 叫做 ChooseDepartment 的 活动 ， 它 是 一 个 提问 活动 〈 用 方 框 中 左上 角 
的 图 标 表 示 )， 也 叫做 DM， 或 者 对 话 模块 [7]. 在 它 最 简单 的 形式 中 ，DM 播放 一 个 提 
示 ， 并 且 使 用 一 个 或 者 一 些 指定 的 文法 激活 语音 识别 引擎 。 然 而 ，DM 需要 处 理 一 些 口 霹 
问题 ， 例 如 超时 、 重 复 提示 以 及 确认 。 所 以 ，DM 合适 的 配置 需要 设计 者 设 定 一 系列 的 功 
能 参数 。 

描述 DM 所 有 属性 的 意义 如 图 15-6 所 示 ， 这 个 描述 超出 了 这 一 章 的 范围 ， 但 是 了 解 
DM 使 用 的 各 种 不 同 的 提示 和 文法 是 最 重要 的 性 质 这 个 考虑 就 足够 了 。 例 如 ， 声 明 是 提示 
的 第 一 个 部 分 ， 其 中 语音 打 断 是 不 可 行 的 ， 例 如 ，“Please choose a department”。 问 题 是 
提示 的 内 容 部 分 ， 例 如 “Footwear”、“Jewely”、“Men's Wear” 或 者 “Lawn Mowers”. 
一 般 只 有 热点 词汇 ， 如 “help”、“operator”， 以 及 那些 对 应 语法 ， 在 DM 的 声明 部 分 是 
活跃 的 。 所 有 其 他 的 内 容 文 法 在 问题 过 程 中 是 活路 的。 活跃 的 语法 由 识别 文本 属性 来 指 
示 。 多 个 文法 可 以 同时 使 用 。 例 如 ， 对 这 里 所 描述 的 DM， 三 个 文法 在 问题 中 是 活跃 的 ， 
如 图 15-7 所 示 。 
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Text: Please choose a department: 
ChooseDepartment_AN.wav 


Text: Footwear, Jewelry, Men's Wear, or Lawn Mowers 
ChooseDepartment Qh.wav 
True 
00:00:00 
Stage Direction 
Text Footwear, Jewelry, Men's Wear, or Lawn Mowers 
E Recognition Context Defined 
Grammars 3 defined 
True 


Hiis, vei po eur om f PL ema uU ene Londen oL OUS De coss o ee 
RRS TT INS ETT M COEM C CN EE 





图 15-6 ”一 个 对 话 模块 的 属性 


Grammar Collection Editor 





图 15-7 在 图 15-6 中 的 对 话 模块 的 提问 阶段 的 活跃 文法 


图 15-7 中 三 个 活跃 的 并 行文 法 是 一 个 语音 文法 ， 包 括 对 每 一 个 可 能 部 分 描述 的 表述 
( 见 前 面 的 文法 例子 ),. DTMF 文法 描述 电话 键盘 上 哪个 按键 响应 哪个 选择 ， 以 及 捕获 多 种 
应 答 操 作 请 求 方 式 的 操作 文法 。 
为 了 总 结 这 一 节 ， 我们 注意 到 ， 构建 一 个 复杂 的 应 用 需要 设计 call-flow， 该 设计 在 包 
含 提示 和 语法 的 活动 基础 上 连同 许多 其 他 参数 ， 充 分 描述 了 交互 的 演变 过 程 。 构 建 一 个 口 
语 对 话 应 用 需要 一 个 可 用 的 创作 工具 辅助 完成 编程 工作 ,例如 前 面 描述 的 应 用 ， 它 允许 开 [508 
发 一 个 call-flow， 可 将 它 看 作 是 一 个 层次 有 限 状 态 机 。 当 前 的 复杂 应 用 的 商业 对 话 系 统 ， 
例如 技术 支持 ， 可 能 包含 上 百 页 ， 如 图 15-4 和 图 15-5 中 所 示 的 那些 ， 以 及 上 千 个 活动 。 


15.3 对话 形式 
当今 采用 的 大 多 数 商用 对 话 系 统 遵循 指导 性 对 话 范 例 ， 意 味 着 系统 一 般 通过 提问 题 和 解 
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释 用 户 回答 来 指导 对 话 的 进程 。 在 交互 的 每 一 个 步骤 ， 对 话 系统 会 问 一 个 特定 的 问题 ， 如 通 
过 提供 选项 列表 、 建 议 可 能 的 响应 ， 或 者 引用 用 户 已 知 的 一 系列 项 目 ， 如 城市 名 或 者 日 期 。 
另 一 方面 ， 研 究 型 系统 一 直 以 开放 对 话 为 目标 ， 它 可 以 允许 一 定 程度 上 的 混合 主导 
(mixed initiative) 。 这 种 交互 的 方式 给 用 户 充 分 的 自由 去 表达 他 们 想 要 的 东西 ， 特 别 是 使 用 自 
然 语 言 输入 ， 而 只 受到 有 限 的 系统 提示 和 指导 。 尽 管 几 个 研究 型 系统 已 经 在 一 些 受 限 领 域 
(如 ATIS, CMU [8, 9 D 不 同 程度 地 实现 了 混合 主导 ， 但 商用 对 话 系统 仍然 尽 可 能 地 保留 
指导 对 话 范 例 。 这 样 做 有 几 点 原因 ， 包 括 混 合 主导 交互 缺乏 实用 、 和 鲁 棒 的 表述 ， 并 且 难 以 分 别 
对 所 有 可 能 输入 状况 的 混合 主导 系统 的 行为 进行 完整 预测 〈 称 为 VUI 完整 性 原则 (6). mA. 
在 开放 式 提 示 的 情况 下 ， 使 用 者 通常 不 知道 该 说 什么 [10，11]， 这 导致 用 户 产 生 不 明确 的 请 
求 ， 即 要 求 系统 以 指导 对 话 形式 进行 后 续 处 理 ， 或 者 请 求 超出 系统 的 限制 ， 导 致 交互 失败 。 
509 介 于 这 些 原因 ， 在 当今 商用 系统 中 ， 混 合 主 导 对 话 和 开放 式 提示 是 受 限 的 或 者 根本 没 
有 。 通 稼 ， 只 有 初始 的 问题 一 一 尤其 是 呼叫 原因 的 辨识 一 一 是 基于 一 个 开放 式 的 提示 ， 然 
后 剩 下 的 对 话 被 认为 是 指导 对 话 形式 。 然 而 ， 即 使 拥有 指导 对 话 的 交互 ， 即 提示 严格 地 指 
示 用 户 或 者 对 说 什么 提供 暗示 ， 也 能 够 观察 到 一 定数 量 的 不 受 约束 的 输入 ， 或 者 输入 与 提 
示 所 要 求 的 不 相 匹配 。 例 如 ， 付 账 应 用 程序 中 的 一 个 提示 “你 想 通 过 信用 卡 支付 还 是 支付 
中 心 支 付 呢 ?”， 用 户 可 能 回答 倡 记 卡 、 支 票 ， 或 者 在 线 ， 与 之 前 提示 的 选择 全 不 同 。 


15.4 自然 语言 呼叫 路 由 选择 


尽管 通过 精巧 设计 的 提示 ， 大 多 数 用 户 趋 向 于 使 用 关键 词 和 短语 来 回答 ， 但 仍然 存在 
着 几 种 应 用 ， 这 些 应 用 指导 对 话 的 方式 不 实用 。 这 种 类 型 的 应 用 以 一 个 领域 模型 为 特征 ， 
这 种 模型 很 复杂 ,并 且 为 大 多 数 用 户 所 不 知 。 例 如 ， 呼 叫 路 由 选择 应 用 就 完全 基于 这 种 策 
略 。 在 这 种 应 用 中 可 能 存在 着 大 量 的 不 同类 型 的 呼叫 原因 (有 时 多 到 数 百 个 [12D. x^ 
可 能 被 单一 的 或 者 储存 的 指导 对 话 所 处 理 。 辨 别 所 有 的 呼叫 原因 需要 多 个 问题 ， 虽 然 呼 叫 
者 能 够 有 效 并 且 清 楚 地 通过 一 句 话 表达 他 们 需要 的 。 

一 个 可 能 的 解决 办 法 就 是 提供 一 个 清单 ， 其 中 包含 了 所 有 用 户 可 能 使 用 的 有 语义 区 别 
的 原因 。 然 而 ， 所 有 可 能 原因 的 列表 可 能 会 过 于 庞大 ， 并 且 构 建 一 个 捕获 所 有 可 能 被 用 来 
描述 原因 的 表达 文法 可 能 是 不 现实 的 。 男 一 方面 ,一 个 详尽 的 无 上 疏 义 的 、 使 用 堆 秋 的 或 者 
层次 的 、 用 于 识别 呼叫 原因 的 指导 对 话 菜 单 可 能 需要 解决 多 个 问题 ， 导 致 过 长 的 交互 ， 精 
糕 的 用 户 体 验 ， 甚 至 可 能 丢 了 客户 。 这 种 情况 下 ， 一 种 解决 方法 就 是 让 呼叫 者 自由 地 表 
达 ， 并 且 系 统 后 方 有 一 个 可 以 自动 将 用 户 划分 到 预定 类 别 的 分 类 器 ， 正 如 前 文 所 述 。 这 种 
技术 叫做 How May I Help You [13], 统计 呼叫 路 由 选择 L14，15]j， 或 者 统计 自然 语言 
理解 [16]， 是 一 种 简化 了 的 语言 理解 方式 ， 结 合 了 一 个 包含 和 目 然 语 言 灵 活性 〈 一 个 开放 
性 的 、 会 引发 大 量 可 能 的 用 户 表述 的 提示 ) 结构 方法 (有 限 类 别 或 路 由 ) 的 鲁 棒 性 。 事 实 
上 ， 对 话 还 可 以 以 指导 对 话 方式 来 构建 ， 因 为 交互 的 输出 是 预定 义 类 别 中 的 一 个 。 统 计 文 
法 基于 学 习 自 大 量 数据 的 对 元 组 文法 ， 一 般 可 以 被 用 来 解决 这 个 问题 。 消 息 的 语义 解释 由 
统计 分 类 怖 和 得到， 如 前 所 述 。 


15. 5 去 代 对 话 应 用 
随 着 20 世纪 90 年 代 中 期 电话 口语 对 话 产业 的 开始 ， 我 们 见证 了 至 少 三 代 这 种 系统 的 


进化 。 每 一 代 的 困难 不 仅 是 复杂 度 的 增加 ， 而 且 还 包括 所 使 用 的 不 同 结构 
表 15-2 展示 了 各 代 系 统 特点 的 概括 。 第 一 代 系统 信息 量 最 大 的 在 于 它们 从 用 户 那 里 


BISF uisus 373 


请 求 一 些 信息 ， 然 后 提供 一 些 信息 作为 返回 。 第 一 代 系 统 的 例子 ， 大 多 数 开发 于 20 世纪 
90 年 代 中 期 或 者 晚期 ， 主 要 是 包 夺 和 追踪、 简单 的 金融 应 用 ,以 及 航班 状态 信息 。 那 时 ， 
对 于 对 话 系统 的 开发 没有 统一 的 标准 ， 因 此 第 一 代 对 话 应 用 在 私有 平台 上 完成 ， 典 型 的 就 
是 已 有 的 按键 式 IVR 结构 的 发 展 。 


R 15-2 几 代 对 话 系统 (VXML 语言 扩展 标记 语言 ，SLU 统计 语言 理解 ) 


第 一 代 第 二 代 第 三 代 

时 间 段 1994— 2001 年 2000— 2005 4F 2004 4E BS 

应 用 类 型 信息 型 交易 型 问题 解决 型 

例子 TER, MERE 银行 ， 股 票 交 易 ， 车 票 预订 SPURS. RASH. BAA 
体系 结构 专 有 的 静态 VXML 动态 VXML 

复杂 度 (DM 的 数量 ) 10 100 1000 

交互 次 数 极 少 10 100 

对 话 形 式 有 指导 的 有 指导 的 十 自然 语言 (SLU) 有 指导 的 十 自然 语言 CSLU) 十 

混合 驱动 的 


一 个 call-flow 中 DM 的 数量 一 般 预 示 着 一 个 应 用 的 复杂 度 。 第 一 代 应 用 显示 的 复杂 度 
一 般 是 几 个 到 十 几 个 DM， 跨 越 几 轮 交 互 。 早 些 的 应 用 支持 严格 的 指导 对 话 交 互 ， 在 每 一 
轮 中 它 也 会 导致 有 限 的 文法 或 者 词汇 。 

第 二 代 应 用 是 典型 的 交易 型 ， 也 就 是 说 它们 会 代表 用 户 进行 实际 的 交易 ， 例 如 在 银行 
间 移 动 基金 、 股 票 交易 ， 或 者 买卖 股票 。 这 一 类 应 用 大 多 数 都 是 遵循 新 标准 开发 的 ， 如 
VoiceXML 文档 集合 。 复 杂 度 变 到 了 数 十 个 BM， 有 若干 轮 交 互 ， 每 一 轮 大 概 交 互 几 十 
次 。 同 时 ， 一些 应 用 开始 使 用 统计 文法 来 将 受 限 的 用 户口 语 表达 映射 到 一 个 有 限 的 预先 定 
义 好 的 语义 类 型 ( 即 SLU 统计 语言 理解 )。 自 然 语言 模 态 一 一 与 指导 对 话 截 然 相反 ， 开 始 
被 用 于 呼叫 路 由 选择 。 

虽然 第 一 代 和 第 二 代 对 话 应 用 的 模型 可 以 被 描述 为 填 表 范例 ， 而 且 交 互 遵循 预先 定义 
好 的 简单 脚本 ， 第 三 代 系 统 在 复杂 度 上 已 经 有 了 一 个 质 的 提高 。 问 答应 用 ， 如 客服 、 咨 询 
台 ， 以 及 技术 支持 ， 都 已 经 达到 了 数 千 个 DM 的 复杂 度 ， 以 及 若干 轮 动态 交互 ， 每 轮 可 交 
互 100 或 者 更 多 次 。 随 着 应 用 复杂 度 的 进化 ， 系 统 结构 也 改变 了 了， 逻辑 部 分 从 客户 端 
(VoiceXML 浏览 器 或 语音 浏览 器 ) 转移 到 了 服务 器 端 [6]。 如 前 所 述 ， 现 在 越 来 越 多 的 
系统 基于 通用 对 话 应 用 服务 器 ， 它 解释 对 话 规格 说 明 ， 并 且 向 语音 浏览 器 提供 动态 产生 的 
VoiceXML 文档 。 最 终 ， 第 三 代 系 统 的 交互 形式 从 严格 的 指导 对 话 应 用 转向 了 使 用 更 加 目 
然 的 语言 ， 以 及 一 定 程度 的 混合 主导 。 


15.6 持续 的 改进 循环 


通常 ， 第 三 代 对 话 系 统 具 有 集成 功能 ， 该 功能 与 后 台数 据 库 或 者 远程 设备 进行 通信 ， 
支持 多 输入 和 输出 形式 ， 有 时 可 以 与 使 用 者 保持 超过 20 分 钟 的 交互 。 为 了 使 呼叫 者 接受 
这 样 的 环境 ,一 些 先进 的 VUI 技术 的 使 用 是 很 关键 的 ， 比 如 结合 自然 语言 理解 、 受 限 的 
混合 主导 ， 以 及 动态 应 答 生 成 。 如 前 所 述 ， 自 然 语 言 理解 是 最 先 被 应 用 到 目 动 口语 对 话 系 
统 的 ， 在 第 二 代 中 ， 它 作为 呼叫 分 类 器 ， 或 者 呼叫 路 由 。 呼 叫 者 在 呼叫 开始 时 被 询问 一 些 
问题 (mn “Briefly tell me what you're calling about today”。 呼 叫 者 的 回答 随即 被 识别 ， 
并 且 基 于 语义 分 类 器 的 结果 将 呼叫 转 到 合适 的 代理 。 然 后 人 工 代 理 与 呼叫 者 交互 ， 提 供 服 
务 ， 例 如 包括 技术 问题 解答 、 账 单 支 持 、 预 订 处 理 等 。 相 比较 而 言 ， 第 三 代 对 话 系 统 被 设 


511 


512 


913 


374 RZB FÈ x 


计 用 来 在 更 大 的 程度 上 模仿 人 类 的 角色 。 

随 着 对 话 系统 不 断 完善 ， 呼 叫 者 的 体验 越 来 越 好 。 现 代 对 话 系统 的 几 个 设计 的 特色 喜 
励 呼叫 者 像 他 们 与 真人 交互 那样 对 话 。 这 样 的 特点 包括 在 对 话 开始 时 的 开放 式 问题 ， 以 及 
如 “help” 和 “repeat” 这 样 的 对 话 中 随时 的 全 局 命令 。 这 一 设计 鼓励 呼叫 者 说 明 那 些 明 
显 地 不 是 由 对 话 系统 提示 的 东西 。 此 外 ， 明 显 的 指导 性 的 对 话 提示 ， 在 这 些 提示 中 呼叫 者 
被 要 求 从 列表 中 选择 一 项 ， 经 常 无 意 地 引出 不 合 语法 的 、 不 完整 的 、 含 糊 的 ， 或 太 细 节 的 
话语 。 那 会 导致 人 工 的 基于 规则 的 文法 无 法 应 对 不 少 的 用 户 输入 。 即 使 听 几 百 次 呼叫 也 很 
难为 每 月 接听 几 百 万 次 的 对 话 系统 提供 一 个 对 于 任何 时 候 都 可 能 出 现 的 口语 表述 的 全 面 理 
解 。 使 用 当前 手工 的 基于 语法 的 方法 几乎 不 可 能 达到 这 一 期 望 。Suendermann 等 [17] 
提出 了 一 个 方法 ， 通 过 使 用 呼叫 者 的 口语 表达 来 调整 SLU 分 类 器 ， 并 且 在 每 一 个 对 话 
识别 上 下 文中 使 用 ， 它 可 以 持续 地 改善 对 话 性 能 ， 即 使 当 指导 对 话 提示 请 求 一 个 简单 的 
回答 ， 例 如 是 或 者 否 。 为 了 能 够 将 该 过 程 变 得 更 加 自动 化 ， 收 集 、 转 录 、 标 注 、 语 言 模 
型 、 分 类 器 训练 、 基 线 测试 ， 以 及 文法 公布 均 是 以 程序 方式 执行 ， 是 一 个 几乎 不 需要 专 
家 监督 的 连续 循环 规程 。 其 目的 是 确保 系统 性 能 的 不 断 完善 ， 并 且 达 到 最 高 可 能 性 的 识 
别 效果 ， 该 识别 效果 以 统计 方式 反映 了 呼叫 者 的 实际 行为 。 这 个 过 程 已 在 超过 200 万 的 
口语 句子 中 被 验证 ， 这 些 句子 来 自 一 个 复杂 呼叫 路 由 选择 和 解答 难题 的 对 话 系统 超过 
50 万 的 完整 呼叫 ， 从 本 质 上 提高 了 系统 的 性 能 。 


15.7 “口语 句子 的 转录 和 标注 


对 第 三 代 大 规模 对 话 系统 的 调整 通 稼 需要 成 百 上 千 的 句子 被 转录 和 进行 语义 上 的 标 
注 。 尽 管 对 如 此 大 规模 的 数据 进行 转录 和 标注 是 部 分 自动 的 ， 但 这 仍 将 让 一 些 人 忙 上 几 个 
A. 虽然 转录 是 相对 简单 的 工作 ,但 是 语义 标注 (例如 将 一 个 词汇 内 容 映 射 到 大 量 语义 符 
号 中 的 一 个 ) 需要 有 相应 的 应 用 知识 。 不 仅 是 标注 者 需要 了 人 解 呼叫 者 在 系统 提示 的 上 下 文 
中 表达 的 意思 ， 对 于 语义 标注 还 存在 几 个 方面 使 得 它 不 易 理解 的 方面 ， 例 如 : 

口语 表达 可 能 在 给 定 的 语义 分 类 集中 没有 代表 ， 表 明 它 们 不 在 文法 的 表示 范围 之 内 ; 

当 不 符合 文法 表达 的 口语 比例 上 升 并 且 容 易 区 分 它们 自己 的 模式 时 ， 标 注 者 会 建议 引 
和 人 新 的 语义 分 类 ， 该 分 类 必须 符合 系统 的 逻辑 ; 

口语 表达 可 能 是 存在 歧义 的 、 模 糊 化 的 、 过 于 特定 的 ;或 者 是 其 内 容 属 于 多 个 语义 分 
类 ， 这 使 得 标注 者 很 难 做 出 抉择 ; 

标注 必须 遵循 一 些 确定 的 标准 ， 从 而 产生 准确 有 力 的 结果 ， 包 括 完整 性 (complete- 
ness) 、 一 致 性 (consistency), 4H Z TE (congruence), HK (correlation), X ALE 
(confusion), ME (coverage) 以 及 语料库 (corpus) 大 小 等 标准 ， 也 称 为 C7 [18]. 

这 些 问题 强调 ， 口 语 对 话 系统 中 语音 识别 全 面 调 整 需 要 细心 的 计划 和 协调 。 


15.8 口语 对 话 系 统 的 本 地 化 


公司 使 用 的 大 规模 第 三 代 口 语 对 话 系 统 大 多 数 用 于 优化 他 们 客户 服务 的 电话 服务 。 很 
多 这 样 的 公司 都 是 国际 化 运作 的 ， 从 而 需要 本 地 化 他 们 的 电话 服务 ， 包 括 口 语 对 话 系统 。 
而 且 ， 一 些 国家 会 有 大 量 的 多 语言 用 户 ， 例 如 英国 的 英语 和 西班牙 语 用 户 ， 以 及 加 拿 大 的 
XB AIA HP. 

如 前 所 述 ， 对 话 系 统 中 的 用 户 交 互 主 要 由 三 个 内 容 决 定 : call-flow, Hm, URE. 
另外 ， 我 们 必须 考虑 语音 识别 的 本 地 化 ， 如 果 需 要 ， 还 要 考虑 TTS 引擎 。 然 而 ， 倘 大 使 
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用 商用 识别 以 及 TTS 引擎 ， 而 且 大 多 数 的 商用 引擎 制造 商 提供 语言 包 《〈 例 如 ， 所 有 主要 
语言 的 声学 和 发 音 的 模型 扩展 的 集合 )， 本 地 化 语音 识别 和 TTS 引擎 就 像 获得 产品 中 语音 
引擎 必需 的 语言 扩展 那样 直接 。 因 此 ， 本 节 其 余 内 容 我 们 分 析 和 口语 对 话 系统 本 地 化 有 关 
的 call-flow、 提 示 以 及 文法 问题 。 


15.8.1 呼叫 流程 本 地 化 


call-flow 决定 了 交互 的 逻辑 ， 粗略 地 说 ， 就 是 在 交互 中 什么 时 候 什 么 问题 应 被 问 及 ， 
以 及 什么 信息 应 被 呈现 给 用 户 。 然 而 ， 在 被 呈现 给 用 户 的 问题 和 斤 述 中 的 特殊 语言 形式 ， 
事实 上 也 就 是 提示 ， 以 及 指定 呼叫 者 可 以 说 什么 以 及 如 何 被 转化 为 语义 标签 的 文法 ,不 应 
该 是 call-flow 的 一 部 分 。 它 们 应 该 被 特定 的 占 位 符 代 表 (动态 变量 、 查 表 )， 从 而 在 逻辑 
和 语言 内 容 间 实 现 一 个 清晰 的 分 割 。call-flow 由 一 个 大 图 说 明 ， 图 的 节点 代表 了 系统 活 
J., 并且 弧 与 条 件 关 联 ， 例 如 由 一 个 语义 分 类 青 在 成 功 的 用 户 交 互 后 返回 的 语义 标签 。 而 
且 ， 符 号 语义 标签 可 以 是 语言 独立 的 。 一 个 逻辑 和 语言 内 容 之 间 分 割 的 例子 是 前 面 提 到 过 
的 call-flow 布局 和 DM 属性 。 

我 们 一 般 假设 ，call-flow 的 逻辑 部 分 在 于 不 同 语言 间 不 会 改变 。 尽 管 这 一 假设 在 一 些 
语言 和 文化 比较 相近 的 语言 间 是 成 立 的 ， 例 如 美国 英语 和 西班牙 语 ， 但 是 在 一 些 语 言 和 文 
化 非常 不 同 的 情况 下 它 可 能 就 是 不 成 立 的 ， 比 如 英语 和 上 日语。 这 里 ， 将 应 用 从 一 种 语言 
植 到 另 一 种 语言 可 能 需要 改变 问题 的 提问 顺序 ， 而 且 由 于 文化 的 原因 可 能 需要 修改 call- 
flow。 然 而 ， 这 一 章 剩 下 的 部 分 ， 我 们 假设 call-flow 的 逻辑 部 分 不 需要 本 地 化 。 


15.8.2 提示 本 地 化 


提示 代表 了 在 交互 的 每 一 步 中 系统 所 说 的 内 容 。 典 型 地 ， 为 了 从 用 户 收 集 一 条 信息 ， 
需要 几 条 提示 ， 因 为 通过 语音 识别 收集 信息 可 能 需要 在 不 同 的 对 话 活 动 中 进行 ， 而 且 口 语 
语言 交互 中 存在 很 多 典型 问题 ， 例 如 语音 识别 的 拒 识 、 超 时 以 及 低 可 信和 度 。 所 有 的 这 些 活 
动 都 是 一 个 对 话 模块 的 逻辑 部 分 。 下 面 列 出 了 所 有 需要 被 设计 用 来 收集 信息 的 典型 提示 ， 
假设 我 们 要 收集 一 个 电话 号 码 : 

。 主 收 集 提 示 : 该 提示 在 信息 第 一 次 被 请 求 时 提出 ， 例 如 ，“Say or enter your ten- 
digit telephone number" , 
重 试 提示 : 如 果 语 音 识 别 拒绝 了 第 一 次 输入 ， 一 个 重 试 提 示 将 建议 用 户 将 同样 的 
信息 再 说 一 遍 。 例 如 ，“IT didn't get that. Please say or enter your ten-digit tele- 
phone number again" , 
确认 提示 : 如 果 识 别 器 返回 一 个 中 等 的 可 信和 度 ， 候 选 识别 将 被 确认 。 例 如 ， "That 
was three one zero nine two six seven one two three, right?” 


修正 提示 : 如 果 用 户 和 否认 了 被 确认 的 候选 识别 ， 系 统 会 再 一 次 提示 。 例 如 ，“T am 


sorry, please say or enter your ten-digit telephone number again", 


超时 提示 : 这 个 提示 会 出 现在 当 分 配给 用 户 说 话 的 时 限 结束 而 用 户 还 没有 说 话 并 
HES EASA wea. Plan, “I didn't hear anything. Please say or enter your ten- 
digit telephone number ," 

帮助 提示 : 当 用 户 要 求 帮助 时 ， 该 提示 会 出 现 。 例 如 “Sure，, here’s some more in- 


formation. I’m looking for the phone number you are calling from. Please say or 


enter your telephone number one digit at a time, starting with the area code" , 
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。 返回 提示 : 当 系 统 再 次 面 对 相 同 问 题 时 该 提示 会 出 现 ， 在 一 个 转移 之 后 ， 例 如 在 
一 个 帮助 提示 之 后 。 如 “So， just say or enter your ten-digit telephone number" , 

。 操作 提示 : 该 提示 出 现在 用 户 明确 地 要 求 一 个 人 工 操 作 员 或 者 按 零 时 。 例 如 “TI 
understand you would like to speak to an agent , but I need to get your phone num- 


ber first in order to route you to the right agent. Please enter or say..." 


这 份 清单 并 没有 穷尽 ， 并 且 每 一 个 对 话 模块 的 可 能 提示 集 可 能 比 这 个 更 大 。 例 如 ， 在 第 
一 次 尝试 之 后 可 能 存在 不 同 的 重 试 以 及 超时 提示 ， 并 且 当 这 些 提示 达到 最 大 数量 ， 系 统 声明 
无 法 完成 信息 收集 之 后 ， 你 也 应 该 为 此 设计 提示 。 或 者 提示 会 根据 系统 已 知 关于 用 户 的 信息 
而 个 性 化 ， 例 如 对 话 系统 对 不 同 专业 层次 的 用 户 会 有 不 同 的 提示 ， 对 不 同年 龄 的 用 户 不 同 的 
提示 等 。 因 此 ， 对 于 每 一 份 收集 来 的 信息 ， 你 不 能 只 提供 一 个 提示 而 应 该 是 很 多 个 以 处 理 所 有 
可 能 的 谈话 情况 。 所 以 ， 即 使 是 一 个 简单 的 系统 ， 有 几 百 个 提示 也 是 很 正常 的 ， 而 对 于 复杂 的 
系统 ， 当 该 系统 需要 本 地 化 时 ， 需 要 设计 、 管 理 ， 以 及 翻译 成 不 同 语言 的 成 千 上 万 的 提示 ， 

因为 一 个 口语 对 话 系统 的 性 能 非常 容易 受到 提示 质量 的 影响 ， 所 以 从 语言 学 和 听觉 角 
度 来 看 ， 当 播放 提示 时 获得 其 考虑 到 上 下 文 的 高 质量 翻译 是 非常 重要 的 。 显 然 ， 完 成 一 个 
高 质量 的 翻译 的 唯一 途径 就 是 通过 雇用 一 个 专业 的 翻译 人 员 在 一 个 VUI 设计 者 的 帮助 下 
将 提示 逐个 翻译 。 尽 管 一 个 口语 对 话 系统 可 能 包含 成 千 上 万 的 提示 ， 但 是 翻译 的 代价 也 不 
至 于 太 高 ， 并 且 翻 译 工作 一 般 不 用 任何 自动 化 处 理 。 

提示 翻译 中 的 一 个 主要 技术 就 是 不 同 语言 中 call-flow 和 提示 集 之 间 关 系 的 维护 。 
call-flow 维 护 环境 需要 包含 本 地 化 和 提示 管理 工具 ， 这 些 工具 允许 保持 不 同 语言 中 面向 应 
用 修改 的 提示 的 不 同 版 本 。 工 具 需 要 标记 一 种 语言 中 被 修改 、 添 加 或 删除 的 提示 ， 并 且 对 
于 其 他 语言 中 的 相应 提示 需要 相似 的 操作 。 没 有 这 个 工具 ， 多 语 口语 对 话 系统 的 维护 可 能 
变 得 过 于 不 实用 并 且 昂 贵 。 


15.8.3 文法 的 本 地 化 


将 一 种 口语 对 话 系统 移植 到 男 一 种 不 同 语言 时 ， 文 法 的 本 地 化 是 问题 最 多 的 。 一 方 
面 ， 基 于 规则 的 文法 很 难 翻 译 ， 因 为 我 们 不 能 将 它们 以 它们 原 有 的 形式 展示 给 专业 的 翻译 
人 员 ， 例 如 一 个 之 前 描述 的 基于 规则 文法 的 例子 ， 又 希望 它们 生成 一 个 精确 的 翻译 。 这 是 
因为 短语 和 句子 经 常 被 划分 为 不 同 层 次 结构 的 语法 成 分 。 搞 清楚 它们 的 意思 与 搞 清 楚 其 他 
人 写 的 软件 一 样 难 。 所 以 ， 翻 译 一 个 基于 规则 文法 的 努力 应 该 比 得 上 重 写 这 些 规则 。 但 是 
一 个 专业 的 翻译 人 员 不 会 写 文法 ， 所 以 我 们 需要 雇用 一 个 说 母语 的 语音 科学 家 ， 或 者 让 语 
音 科 学 家 与 目标 语言 的 一 个 专业 翻译 专家 合作 ，。 

另 一 方面 ， 第 三 代 应 用 中 普遍 使 用 的 统计 文法 不 能 够 直接 翻译 ， 因 为 它们 由 元 组 和 
统计 分 类 器 组 成 。 如 果 专 业 的 翻译 人 员 不 能 够 编写 基于 规则 的 文法 ， 那 更 谈 不 上 写 n 元 组 
和 统计 分 类 器 了 ! 而 从 目标 语言 的 转录 和 标注 的 语料库 中 更 容易 重新 训练 出 n 元 组 和 分 类 
器 。 但 是 获得 目标 语言 的 新 语料库 可 能 很 困难 或 不 切实 际 ， 而 且 完 整地 将 有 成 千 上 万 口语 
句子 的 语料库 翻译 成 目标 语言 经 济 上 是 不 允许 的 ， 并 且 人 工 翻 译 也 很 难 有 合理 的 时 间 表 。 
然而 ， 机 器 翻译 可 以 用 来 做 这 件 事 。 

FE, 我们 报告 一 下 使 用 商业 机 器 翻译 引擎 自动 完成 本 地 化 统计 文法 的 研究 工作 。 尤 
其 是 当 目 标语 言 没 有 充足 数据 资源 时 ， 这 非常 有 用 。 


15.8.4 源 端 数据 
作为 使 用 机 器 翻译 来 进行 文法 本 地 化 研究 的 一 个 例子 ， 我 们 使 用 互联 网 上 搜集 的 属于 
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英语 对 话 系统 的 大 规模 数据 ， 如 Acomb 等 [4] 描述 的 。 时 间 器 度 超过 3 年 ， 该 系统 处 理 
了 几 目 万 的 呼叫 。 从 这 些 呼 叫 中 的 一 个 相当 大 的 子 集 获 得 口语 句子 ,进行 转 录 ， 并 且 基 于 
一 个 完整 的 语义 类 别 列表 进行 语义 标注 。 表 15-3 列 出 了 源 语言 可 获得 的 数据 规模 概况 ; 它 列 
出 了 转录 口语 呼叫 的 数量 ， 转 录 (也 是 不 同 的 ) 和 标注 的 口语 句子 的 数量 ， 以 及 一 个 系统 复 





杂 度 的 标示 它 考 虑 了 DM 和 文法 的 数量 。 
原始 的 英语 对 话 系统 在 考虑 将 它 本 地 化 之 前 已 经 表 15-3 ” 源 端 英语 数据 概况 
经 历 了 持续 的 循环 优化 〈 如 前 所 述 )。 因 为 上 述 涉及 转 呼叫 1 159 940 


录 和 标注 生成 的 人 工 工作 量 随 着 收集 的 数据 越 来 越 多 I onn et 
WEESRRCP. A AR ye RS BY CERT WT 标注 的 口语 句子 3845 050 (89.6%) 


以 在 给 定 的 时 间 里 被 处 理 [19]。 图 15-8 展示 了 口语 句 DM 2332 
子 在 收集 时 间 段 上 的 分 布 ， 这 表明 收集 的 量 从 项 目 开 _ 文 法 253 
始 时 就 不 斯 增加 。 
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图 15-8 ”每 个 月 收集 到 口语 句子 的 数量 
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K 15-3 中 所 有 的 4 293 898 个 转录 的 口语 句子 ， 这 些 句 子 由 商用 统计 机 器 翻译 软件 从 
英语 翻译 到 西班牙 语 。 事 实 上 ， 这 只 是 通过 翻译 278 917 个 不 同 的 句子 完成 的 ， 并 将 翻译 
关联 到 源 端 口语 句子 的 上 下 文 。 图 15-9 展示 了 语料库 中 不 同 句子 的 类 似 Zipf 的 分 布 。 翻 
译 完全 是 以 一 种 无 监督 的 方式 进行 。 没 有 对 输出 进行 修正 或 对 机 费 翻 译 进行 调整 。 对 于 所 
有 不 同 的 文法 ， 被 翻译 为 西班牙 语 的 口语 句子 和 它们 的 原始 语义 标注 被 分 别 用 来 训练 统计 
语言 模型 和 统计 分 类 器 ， 其 中 参数 使 用 标准 的 设置 ， 因 为 没有 开发 集 数据 可 用 。 

图 15-10 以 降序 展示 了 英语 语料库 中 口语 句子 对 于 每 个 文法 数量 的 分 布 ， 这 表明 ， 有 
的 文法 有 超过 一 百 万 的 口语 句子 (典型 的 yes/no 上 下 文 )， 也 有 许多 文法 面临 数据 稀 朴 问 
Bi (22 个 文法 特征 只 有 人 少 于 100 个 训练 句子 ) 。 


15.8.6 测试 


因为 在 文法 生成 的 时 候 ， 西 班 牙 语 目标 端的 系统 还 没 被 部 署 ， 所 以 我 们 只 好 在 目 动 翻 
译文 法 的 一 个 子 集 上 做 测试 。 为 了 达到 那个 目的 ， 我 们 收集 、 转 录 ， 并 且 标 注 来 自 一 个 类 
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图 15-9 ”英语 语料库 中 不 同 句子 的 频率 分 布 
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518 图 15-10 ”英语 语料库 中 每 个 文法 的 口语 句子 数量 的 分 布 


似 互联 网 疑难 解答 对 话 系统 的 已 有 的 西班牙 语 版 本 中 的 有 限 数 量 的 口语 句子 。 这 些 数据 的 
特性 在 表 15-4 中 展示 。 





在 测试 集中 发 现 的 文法 在 图 15-10 中 以 X 15-4 西班牙 语 测试 数据 的 特点 
白色 的 圈 表 示 ， 表 明 它 们 在 可 用 训练 数据 上 呼叫 数 951 
分 布 于 不 同 数量 级 上 。 收 集 到 的 口语 句子 集 : ”转录 的 口 请 句子 11 470 
在 各 自 上 下 文 下 使 用 自动 翻译 的 文法 来 进行 。 "ERIT E 
语音 识别 和 分 类 的 批量 实验 。 对 于 11 470 文法 17 


个 口语 句子 中 的 每 一 个 ， 分 类 结果 现在 被 用 

来 和 相同 口语 句子 的 语义 标注 进行 比较 。 评 估 实 验 结果 的 准确 率 是 与 标注 匹配 的 语义 分 类 
结果 的 听觉 事件 的 数量 再 除 以 听觉 事件 的 总 数 。 这 些 事件 包含 范围 内 和 范围 外 的 口语 名 
子 ， 以 及 噪声 、 背 景 语 音 等 。 整 个 测试 集 的 总 体 精 度 是 85. 0% ， 这 相 比 于 基于 手工 制作 文 
法 的 对 话 系 统 的 性 能 确实 有 很 大 提高 。 事 实 上 ， 我 们 的 经 验 是 基于 规则 文法 的 系统 的 平均 
准确 率 往往 低 于 80 为 。 为 了 得 到 一 个 更 可 靠 的 比较 标准 ， 我 们 观察 了 英语 源 端 对 话 系统 的 
性 能 ， 该 系统 被 不 断 调整 优化 使 用 了 许多 年 ， 并 且 发 现 最 新 的 系统 版 本 的 性 能 达到 了 
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90.7% (用 930 个 呼叫 ，11 274 个 完整 标注 的 口语 句子 来 测试 ) 。 
使 用 相同 的 系统 ， 但 是 性 能 却 低 于 在 源 语言 端的 原因 可 以 解释 如 下 : 
。 目标 端 声学 模型 的 劣势 。 在 我 们 的 实验 中 ,我们 使 用 了 一 个 过 时 的 西班牙 语 语音 
识别 器 ， 它 的 声学 模型 性 能 明显 达 不 到 英语 的 部 分 ， 人 例如， 在 “yes/no (si/no)” 
上 下 文中 ， 相 比 相 同 的 独立 于 任何 语言 学 因素 的 英语 上 下 文 ， 我 们 观察 到 系统 拥 
有 更 高 比例 的 错误 接受 及 拒绝 。 

。 翻译 模型 的 劣势 。 统 计 翻 译 不 仅 产 生 大 量 众所周知 的 错误 ， 而 且 人 工 翻译 也 可 能 
会 有 出 错 的 情况 : 文法 一 般 是 基于 呼叫 者 的 口语 句子 设计 的 ， 该 日 语句 子 是 用 来 
应 答 限 制 呼叫 者 使 用 语言 的 系统 提示 。 例 如 ， 一 个 西班牙 语 提示 可 能 会 说 “Cuan- 
do esté desconectado, diga continue”， 这 翻译 自 英 文 提 示 “When it's unplugged, 
say continue”。 因 此 大 多 数 英 语 回 答 者 将 是 “continue”, 一 个 像 人 一 样 的 机 器 可 
能 翻译 成 西班牙 语 的 “continuar”， 而 不 依赖 提示 的 正确 的 “continGe”。 所 以 ,为 
了 达到 更 准确 的 翻译 候选 结果 ， 应 考虑 使 用 各 自 系统 的 提示 和 其 他 一 些 应 用 相关 
的 信息 来 对 它们 重新 打分 。 

这 个 实验 没有 可 用 的 开发 集 数据 ， 因 为 这 需要 收集 一 (小 ) 部 分 来 自 目 标语 言 的 
口语 句子 ， 和 它们 的 转录 与 标注 。 一 旦 目标 端 系统 的 第 一 个 版 本 投入 生产 ， 这 些 
数据 就 可 以 得 到 ， 并 且 能 够 用 来 调整 语言 模型 和 分 类 器 。 

无 论 如 何 ， 我 们 已 经 展示 了 即使 一 个 最 初 性 能 较 低 的 对 话 系 统 也 能 够 用 很 少 人 力 就 应 
用 于 不 同 语言 中 。 而 且 ,， 一 旦 系统 部 署 好 并 且 收 集 到 可 观 数据 量 的 数据 ， 就 可 以 引入 前 面 
章节 所 述 的 持续 调整 过 程 改 进 语 音 识 别 性 能 以 达到 一 个 可 接受 的 水 平 。 


15.9 BH 


在 这 一 章 中 ,我们 详 述 了 当前 用 来 构建 商用 对 话 系统 的 架构 、 技 术 以 及 方法 。 一 个 商 
用 对 话 系 统 的 架构 主要 由 三 个 模块 组 成 : 语音 识别 和 理解 、 语 音 生成 ， 以 及 对 话 管理 磊 。 
语音 识别 和 理解 模块 的 目标 是 为 每 个 语音 输入 分 配 一 个 或 者 多 个 语义 标签 。 尽 管 工业 上 仍 
然 使 用 基于 规则 的 文法 ， 该 文法 编码 了 可 能 口语 句子 的 语法 和 语义 ， 但 采用 完全 统计 的 方 
法 仍然 有 几 个 好 处 。 尤 其 是 使 自动 调整 所 有 的 文法 成 为 可 能 ， 并 提供 了 一 个 获得 大 量 用 户 
口语 句子 的 转录 和 语义 标注 的 机 会 。 商 用 对 话 系统 中 的 语音 生成 大 多 数 是 基于 高 质量 的 提 
示 录 音 集 来 完成 的 。 最 后 ， 对 话 管理 器 使 用 有 限 状 态 机 方法 ， 明 确 地 把 整个 交互 编码 为 所 
谓 的 call-flow。 非 常 有 效 的 GUI 工具 使 得 VUI 设计 者 能 够 设计 和 开发 非常 复杂 的 、 通 常 
包含 数 千 个 模块 的 交互 过 程 。 然 后 我 们 描述 了 已 经 开发 出 来 的 并 且 商 用 的 不 同类 型 的 对 
话 。 对 话 系统 产业 包括 从 非常 简单 的 信息 传递 应 用 到 交易 型 的 问题 解决 系统 。 然 后 我 们 讨 
论 了 对 话 系统 对 于 不 同 语言 本 地 化 的 问题 。 当 大 量 转录 和 标注 的 源 端 语 言 可 用 ， 并 且 统 计 
文法 而 不 是 传统 的 基于 规则 文法 被 使 用 在 整个 应 用 中 时 ， 我 们 展示 了 使 用 机 带 翻 译 的 语 首 
识别 的 本 地 化 可 以 是 很 直观 的 并 且 代 价 不 高 。 对 建议 方法 的 一 个 样本 实现 的 测试 表明 这 个 
方法 胜 过 手工 操作 ， 即 使 它 不 能 达到 原始 对 话 系 统 在 源 端 语言 中 相同 的 准确 度 。 当 然 ， 一 
旦 系统 用 在 新 的 目标 语言 中 ， 持 续 的 调整 将 带 来 性 能 提高 甚至 达到 源 语言 的 水 平 。 
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许多 早期 的 语音 和 自然 语言 处 理应 用 程序 都 是 基于 单 处 理 引 警 ， 例如， 实现 听写 的 语 
音 到 文本 转换 (STT, 也 即 语音 识别 ) 引擎 或 者 一 个 实现 文本 翻译 的 翻译 引擎。 然而 ， 现 
在 许多 引擎 已 经 达到 足够 的 精确 度 ， 能 够 把 它们 结合 起 来 完成 以 前 不 可 能 完成 的 更 复杂 的 
任务 ， 尽 管 结合 中 会 带 来 固有 的 误差 积累 。 例 如 文本 领域 中 的 应 用 ， 包 括 语义 搜索 、 企 业 
报告 和 其 他 商业 智能 系统 、 问 答 系 统 、 医 案 控 掘 、 蜂 语言 搜索 等 。 音 频 处 理 的 例子 包括 音 
频 / 视 频 搜索 和 编目 、 语 音 到 语音 翻译 、 外 语 厂 播 新 闻 分 析 等 。 
这 类 应 用 程序 共享 许多 通用 的 引擎 ， 如 说 话 人 识别 、 语 音 到 文本 转换 、 文 本 切 分 、 语 
法 分 析 、 命 名 实体 检测 、 共 指 分 析 、 词 性 标注 、 翻 译 等 。 共 享 的 优势 加 上 应 用 程序 的 绝对 
- 促使 了 把 这 些 应 用 程序 实现 为 一 系列 步 又， 而 这 些 步骤 则 由 独立 的 引擎 组 件 执 
。 这 样 做 使 得 组 件 的 开发 和 测试 可 以 分 开 进 行 ， 同 时 降低 了 大 型 应 用 程序 调试 的 难度 。 
制作 这 些 应 用 程序 的 原型 通常 需要 把 一 个 引擎 的 输出 按照 下 一 个 引擎 的 要 求 重 新 格式 
化 ， 并 将 其 输入 到 该 引擎 等 。 但 应 用 程序 开发 者 可 以 通过 创建 一 个 聚合 处 理 器 ， 将 数据 自动 
从 一 个 引擎 移动 到 下 一 个 引擎 ， 当 需要 时 即 重新 格式 化 ， 这 样 会 市 来 很 大 的 好 处 ， 如 下 所 示 : 
。 一 组 引擎 的 单 点 调用 ; 
© 引擎 之 间 的 高 效 数据 传输 一 一 无 须 手 动 传输 转换 ; 
。 容错 ， 失 效 备 援 一 一 如 果 引 擎 出 现 故 障 ， 自 动 切 换 到 一 个 备份 ; 
。 通过 系统 组 合 技 术 可 提高 系统 的 准确 性 [7，12j]。 
然而 ， 聚 合同 样 带 来 了 一 些 挑战 : 
。 异 构 计算 环境 : 不 同 的 引擎 往往 是 由 不 同 的 群体 ， 使 用 不 同 的 操作 系统 ， 不 同 的 
编程 语言 ， 不 同 的 字 节 顺序 等 来 开发 的 ; 
。 远程 操作 : 引擎 常常 在 不 同 的 地 点 被 开发 和 维护 ， 这 样 使 得 远程 处 理 更 有 利 ， 同 
时 可 避免 把 引擎 从 一 个 站 点 移植 到 男 一 个 站 点 ， 避 人 免 软 件 更 新 的 传播 等 。 即 使 共 
用 一 个 站 点 的 引 警 ， 由 于 处 理 的 要 求 也 可 能 需要 在 单独 的 机 器 上 运行 ; 
。 数据 格式 : 不 同 的 引擎 往往 需要 相互 矛盾 的 数据 格式 。 例 如 ， 语 音 到 语音 翻译 可 
以 分 解 为 语音 到 文本 、 文 本 翻译 ， 然 后 再 从 文本 到 语音 合成 。 然 而 ， 语 音 到 文本 
自然 输入 是 一 个 音频 信和 号， 并 且 其 自然 输出 是 把 文本 与 信号 的 时 间 域 相关 联 ( 往 
往 一 次 一 个 词 )， 而 文本 翻译 引擎 与 音频 无 关 ， 只 是 期 望 文本 字符 串 作 为 输入 ， 典 
型 形式 是 大 于 一 个 词 的 块 。 因 此 ， 聚 合 需要 在 各 个 引 警 的 格式 之 间 进 行 适 当 的 数 
据 转 换 和 重新 组 织 ; 
。 异常 处 理 : 当 引 擎 遇 到 问题 时 ， 它 经 帝 以 一 种 无 法 为 聚合 中 独立 研发 的 引擎 所 能 
正确 识别 的 方式 报告 ， 这 样 可 能 导致 错误 被 忽略 ， 甚 至 导致 聚合 失败 。 异 稍 处 理 
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设施 和 约定 是 必要 的 。 比 如 ， 处 理 可 以 容忍 的 错误 、 一 个 导致 可 接受 的 数据 损失 
的 错误 ， 以 及 那些 必须 终止 应 用 程序 的 错误 等 。 
本 章 我 们 将 研究 创建 的 软件 框架 以 应 对 这 些 问 题 ， 并 讨论 了 几 个 聚合 系统 实例 来 执行 复 
杂 的 任务 。 


16.2 聚合 语音 和 NLP 引擎 架构 的 期 望 属 性 


软件 框架 需 具备 儿 个 基本 属性 ， 以 便 充分 实现 聚合 引擎 的 优势 。 在 下 面 的 几 节 中 ， 我 
们 把 这 些 属性 归 为 4 个 方面 : 模块 化 的 组 件 、 计 算 效率 、 数 据 管理 和 和 鲁 棒 性 。 


16.2.1 灵活 的 分 布 式 组 件 化 


处 理 复杂 应 用 程序 的 基础 是 需要 支持 模块 化 设计 。 引 擎 的 功能 ， 例 如 语音 到 文本 转 

换 、 翻 译 引 擎 和 信息 抽取 ， 早 于 那些 组 合 这 些 功 能 的 复杂 应 用 系统 ， 而 且 集 成 执行 每 个 功 

524| 能 的 引擎 通常 是 不 切实 际 的 。 因 此 ， 首 先 要 求 简单 的 组 件 化 设计 。 框 架 应 该 被 设计 成 很 容 
易 适 应 在 其 上 运行 的 现 有 引擎 ， 这 些 引 擎 可 由 任何 常用 的 编程 语言 编写 并 且 运 行 在 任何 常 
用 的 操作 系统 。 这 种 适应 性 可 能 只 采用 简单 的 封装 形式 以 使 引擎 符合 一 个 简单 的 应 用 程序 
编程 接口 。 一 旦 引擎 是 可 适应 的 ， 那么 配置 一 个 聚合 系统 也 应 该 是 简单 的 ， 只 要 描述 引擎 
间 的 处 理 流程 ， 以 及 将 需要 的 数据 重组 织 。 

一 般 情况 下 ， 组 件 可 以 独立 开发 ， 因 此 这 个 框架 必须 能 够 处 理 异 构 的 操作 系统 和 编程 
语言 。 引 擎 应 该 不 需要 转换 成 一 个 通用 的 操作 系统 和 编程 语言 ， 相反， 该 框架 应 使 每 个 引 
擎 在 其 各 目的 本 地 计算 环境 里 运行 。 

此 外 ， 该 框架 应 允许 应 用 程序 定义 组 件 之 间 的 数据 接口 。 一 个 可 定制 的 、 可 扩展 的 数 
据 模 型 将 允许 组 件 更 换 或 升级 ， 并 人 允许 新 数据 格式 的 新 组 件 很 容易 地 添加 。 

各 个 引擎 不 应 该 移植 到 一 个 共同 的 地 点 。 随 着 技术 的 进步 ， 允 许 引 敬 从 各 目 站 点 中 进行 
操作 ， 以 使 引擎 维护 简单 化 和 升级 容易 。 因 此 框架 应 该 文 持 远 程 操 作 ， 将 每 个 组 件 通 过 网 络 
以 可 访问 的 服务 方式 进行 部 署 ， 而 聚合 应 用 程序 则 可 视 作 这 些 分 布 式 引擎 的 远程 客户 端 。 

男 外 ， 这 些 引 擎 组 件 对 很 多 应 用 程序 有 用 ， 因 此 聚合 框架 应 该 为 引 获 提供 多 应 用 程序 
客户 端 服务 ， 例 如 ， 可 对 它们 的 请 求 进行 排队 。 应 该 启用 负载 平衡 ， 便 于 长 时 间 运 行 的 多 
个 实例 或 者 有 大 量 请 求 的 引擎 可 以 被 预 分 配 以 服务 这 样 的 队列 。 


16.2.2 计算 效率 


为 了 实现 其 功能 ， 不同 的 引擎 需要 不 同 数 量 的 上 下 文 。 例 如 ， 当 处 理 一 句 话 或 者 一 个 
段落 的 上 下 文 时 ， 翻 译 引擎 也 许 运 行 得 最 好 ， 而 一 个 新 闻 主 题 聚 类 引擎 通常 会 给 整个 新 闻 
故事 指定 一 个 标签 。 鉴 于 这 个 原因 ， 框 架 必须 能 够 处 理 内 容 的 片段 ， 片 段 的 大 小 必须 是 应 
用 程序 可 控制 的 ， 其 大 小 可 以 是 多 少 分钟 的 音频 、 多 少 个 字符 的 文本 等 。 

有 效 处 理 这 些 片段 需要 一 些 基 本 的 能 力 。 首 先是 流水 线 ， 在 聚合 的 每 个 不 同 阶段 具有 
同时 处 理 多 个 内 容 片 段 的 能 力 。 当 聚合 程序 完成 第 一 个 片段 时 ， 第 一 个 引擎 才 开 始 处 理 第 
二 个 片段 ， 而 不 是 当 第 二 个 引擎 接 收 到 第 一 个 片段 后 就 立即 去 执行 第 三 个 片段 ， 则 一 个 六 
引擎 的 顺序 聚合 程序 的 吞吐 量 将 是 次 优 的 ， 性 能 降低 N fit. 

通常 ， 一 个 聚合 程序 包括 一 组 引擎 ， 其 处 理 是 相互 独立 的 。 在 系统 合成 组 件 前 使 用 多 
重 语音 到 文本 的 转换 和 翻译 引擎 就 是 一 个 例子 ， 比 如 Rover [7] MAAS SOL ar H 

[525] [12]。 如 利用 这 个 机 会 减少 延迟 ， 则 需要 总 体 框架 并 行 调用 独立 的 引擎 ， 处 理 相 同 的 数据 
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片段 ， 并 对 并 行 产 生 的 结果 进行 重组 。 

另外 一 个 问题 经 常 是 一 两 个 特别 的 引擎 功能 ， 比 如 语音 到 文本 转换 ， 在 一 个 处 理 聚 全 
中 由 于 处 理 时 间 长 而 变 成 明显 的 瓶颈 。 对 于 框架 来 说 ， 支 持 部 署 一 个 引擎 的 多 个 实例 服务 
其 处 理 队列 往往 是 有 利 的 ， 这 样 可 以 一 次 处 理 多 个 数据 段 ， 对 客户 端 应 用 程序 透明 ， 从 而 
提高 吞吐 量 . 

最 后 ， 这 个 框架 应 该 提供 将 组 件 以 服务 的 方式 运行 的 功能 ， 这 些 服务 为 客户 端 应 用 程 
序 共享 。 结 合 前 述 能 力 ， 本 属性 为 不 同 计算 需求 的 分 布 式 引擎 集 提供 了 灵活 的 动态 负载 平 
衡 ， 有 效 地 为 分 布 式 的 客户 端 应 用 程序 集 服务 。 


16.2.3 数据 操作 功能 


正如 前 面 所 说 ， 不 同 的 数据 类 型 是 不 同 引 擎 功能 的 基础 。 语 音 到 文本 和 文本 到 语音 
引擎 把 文本 字符 串 和 一 段 音频 信号 关联 起 来 ， 而 翻译 引擎 关联 两 个 不 同 语言 的 文本 字符 
串 ， 因 此 ， 配 置 了 三 个 引擎 的 语音 到 语音 翻译 应 用 程序 必须 协调 两 种 语言 的 音频 和 文本 ， 
同时 控制 翻译 引擎 不 处 理 音 频 ， 并 且 这 两 个 语音 处 理 引 擎 每 次 只 处 理 一 种 语言 。 因 此 ， 框 
架 必须 具有 协调 不 同类 型 数据 的 能 力 ， 而 数据 以 不 同 的 模 态 表示 单一 的 一 段 内 容 。 必 须 维 
持 数据 段 中 各 种 录像 、 音 频 和 文本 数据 表示 的 对 齐 ， 将 数据 适当 组 织 以 使 每 个 引擎 能 集中 
于 其 适当 的 表示 而 忽略 其 他 部 分 。 当 添加 新 的 引擎 ， 这 种 能 力 必须 容易 被 扩充 。 

在 某 些 情况 下 ， 引 擎 将 会 有 冲突 的 分 割 要 求 ， 或 者 一 个 引擎 的 输出 会 对 随后 引擎 的 数据 
输入 确定 正确 的 分 割 起 一 定 的 作用 。 例 如 ， 语 音 到 文本 转换 或 许 已 经 生成 文本 ， 而 文本 作为 
故事 边界 检测 引擎 的 输入 ， 以 确定 各 个 片段 的 适当 边界 ， 然 后 再 将 这 些 边 界 传递 到 一 个 主题 
聚 类 引擎 。 所 有 的 文本 、 音 频 和 其 他 内 容 的 表示 ， 将 组 合 起 来 并 重新 分 割 ， 同 时 保持 它们 之 
间 正 确 的 对 齐 联系 。 所 以 ， 对 框架 的 另 一 个 要 求 是 它 能 够 处 理 动 态 的 内 容 再 分 割 。 


16.2.4 ”和 鲁 棒 性 处 理 


在 不 同 的 引擎 里 不 可 避免 地 会 发 生 异 常 ， 而 且 有 时 引擎 或 应 用 程序 客户 端 与 引擎 服务 
端 之 间 的 网 络 连接 会 失败 。 为 了 能 够 处 理 这 些 异常 ， 聚 合 框架 必须 具有 方便 的 、 灵 活 的 错 
误 处 理 和 流量 控制 机 制 。 源 于 引擎 处 理 的 异常 应 该 被 捕获 到 ， 以 免 引擎 的 意外 输出 变 成 另 
一 个 引擎 有 问题 的 输入 ， 可 能 使 故障 更 复杂 化 。 聚 合 程序 的 配置 必须 具有 规定 标准 和 处 理 
引擎 或 连接 故障 后 果 的 能 力 。 这 些 状 况 可 能 包括 超时 、 放 弃 重 试 之 前 的 失败 次 数 以 及 放弃 
二 不 引擎 后 的 操作 ;例如 跳 过 ,调用 备用 的 组 件 或 完全 终止 处 理 。 

此 外 ， 随 着 远程 服务 的 出 现 ， 越 来 越 需要 远程 监控 和 管理 。 一 个 生命 周期 管理 系统 应 
该 提供 一 种 通告 机 制 ， 它 可 以 对 任何 远程 服务 问题 进行 通告 ， 而 且 能 够 从 管理 控制 台 启 用 
监视 :开始 及 停止 服务 。 


16.3 ”聚合 的 架构 

一 些 现 有 的 架构 支持 上 面 介绍 的 许多 属性 。 下 面 几 节 我 们 将 介绍 几 个 流行 的 、 有 前 景 
的 架构 。 

注意 ,一 些 基于 文本 的 NLP 工具 库 仅 支持 简单 的 顺序 处 理 ， 本 质 上 依赖 于 应 用 程序 
开发 者 实现 聚合 ， 例 如,，OpenNLP、NLTK、 Ellogon, OpenCalais, Weka, Kea, Open- 
Calais、LingPipe、FreeLing。 因 此 这 些 工具 本 身 对 复杂 的 聚合 没有 用 处 ,但 以 下 框架 已 
经 开发 出 使 这 些 工 具 融 入 更 复杂 应 用 程序 的 封 法 妖 。 
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16.3. 1 UIMA 


非 结构 化 信息 管理 体系 结构 (Unstructured Information Management Architecture, 
UIMA) 是 用 于 创建 、 发 现 、 创 作 及 部 署 广泛 的 多 模式 分 析 能 力 和 与 搜索 技术 整合 的 架构 
和 软件 框架 。 这 种 架构 已 经 被 结构 化 信息 标准 促进 组 织 (Organization for the Advance- 
ment of Structured Information Standards, OASIS) [15] 作为 一 个 开放 标准 所 接受 。 

UIMA 人 允许 多 个 分 析 引 擎 以 聚合 方式 结合 ， 并 且 提 供 了 一 个 可 定制 的 类 型 系统 ， 可 使 
不 同 的 引擎 在 共同 的 数据 结构 中 共享 它们 的 结果 。 每 个 引擎 都 实现 了 UIMA 注释 界面 ， 
并 且 传 递 了 以 共同 分 析 结 构 (Common Analysis Structure, CAS) 表示 的 分 析 数 据 ， 这 里 
包含 了 所 有 早期 注释 器 产生 的 数据 。UIMA 分 析 引 擎 (Analysis Engine, AE) 可 能 是 一 
个 单一 的 注释 器 ， 或 者 多 个 分 析 引 警 的 聚合 体 ， 分 析 引 警 间 的 流量 由 一 个 可 定制 的 流量 控 
制 胡 管理 。 每 一 个 CAS 包含 了 一 个 或 多 个 被 分 析 的 数据 表示 (如 一 个 文本 文件 、 图 片 、 
一 段 音 频 或 视频 ) 以 及 引 警 所 添加 的 元 数据 (注释 ) 的 表示 。CAS 还 包含 一 个 类 型 系统 
的 表示 和 一 个 可 以 高 效 访问 类 型 实例 〈 在 文档 里 可 以 由 位 置 索引 ) 的 索引 库 。 

Apache UIMA 是 在 Apache 软件 基金 会 的 网 站 [4] 上 提供 的 一 个 开源 实现 ， 还 提供 
了 以 下 特色 : 

。 一 个 共同 的 分 析 结 构 来 组 织 并 保持 一 段 数 据 (如 文本 、 音 频 ) 和 其 上 的 所 有 分 析 结 果 ; 

。 一 个 用 于 使 输入 和 输出 数据 格式 规范 化 的 、 可 扩展 的 类 型 系统 机 制 ; 

。 一 个 可 扩展 的 基于 组 件 的 框架 ， 简 化 了 UIMA 兼容 的 分 析 器 的 集成 和 部 署 ; 

。 支持 JAVA, C++, Perl, Python 和 Tcl HS AA PT $8 ; 

。 支持 Linux, Windows 和 MacOS X; 

。 分 别 用 于 开发 和 测试 组 件 的 工具 ; 

。 具有 把 组 件 作为 互联 网 上 的 共享 服务 运行 的 能 力 ; 

。 具有 复杂 的 错误 处 理 选项 创建 自 定义 分 析 流 程 的 能 力 ; 

。 具有 通过 在 聚合 的 不 同 阶段 同时 处 理 多 个 数据 段 的 能 力 ， 以 增加 吞吐 量 ; 

。 具有 通过 多 个 引擎 并 行 处 理 同一 片段 以 减少 延迟 的 能 力 ; 

。 重新 分 割 数 据 的 能 力 。 

1. 灵活 的 分 布 式 组 件 化 

Apache UIMA 框架 用 Java 实现 , 但 AE 可 以 用 Java、C 十 十 或 者 脚本 语言 来 编写 ， 
fln, Perl, Python, Tel, AE 可 以 用 一 个 简单 的 线性 流 或 用 户 定义 的 流 来 组 合成 聚合 
体 。Apache ActiveMQ [3] 、Java 消息 服务 (Java Message Service, JMS) 的 开源 实现 ， 
提供 了 与 远程 服务 的 通信 。 

UIMA 的 基本 数据 元 素 是 被 分 析 的 数据 区 域 的 一 个 注释 。 对 于 文本 文档 ， 该 区 域 通常 
是 一 个 串 字 符 ， 但 其 他 形式 可 以 是 一 个 音频 样本 或 视频 帧 序列 。UIMA 标注 以 TIPSTER 
架构 [20] 为 基础 ， 并 且 包 含 被 分 析 的 数据 的 不 可 改 区 域 的 开始 和 结束 的 偏 移 量 。 每 个 组 
件 指定 了 处 理 的 CAS 中 的 数据 类 型 ， 框 架 通 过 合并 所 有 需求 为 应 用 程序 构成 一 个 完整 的 
类 型 系统 。 组 件 只 需要 访问 在 CAS 的 数据 子 集中 匹配 它们 的 定义 类 型 ， 而 且 不 受 CAS 中 
其 他 数据 变化 的 影响 。 对 于 远程 服务 ， 每 个 CAS 中 的 数据 都 以 一 种 与 平台 无 关 的 格式 
(XML 或 二 进 制 格式 ) 进行 传输 ， 而 且 仅 返回 对 CAS 的 修改 。 

2. 计算 效率 

AE 的 聚合 体 中 ， 每 个 AE 都 可 以 在 不 同 的 数据 片段 上 独立 〈 远 程 或 本 地 ) 运行 ， 使 
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得 以 最 小 的 延迟 ， 处 理 聚 合体 中 的 每 个 CAS。 为 进一步 提速 — AE 可 以 并 行 运行 处 理 
相同 的 CAS, 当 速 度 最 慢 的 一 个 AE 运行 结束 时 ， 再 合并 它们 的 结果 。 由 于 最 慢 的 AE 变 
成 了 瓶 开 ,因此 可 以 部 署 多 个 实例 以 增加 吞吐 量 。 对 于 远程 服务 ， 各 个 实例 可 以 被 分 配 在 
多 处 理 右 上 ， 所 有 处 理 顺 都 服务 同一 个 JMS 队列 ， 提 供 负 载 平衡 以 及 个 别 故障 的 和 鲁 棱 性 。 

3. 数据 操作 性 能 

一 个 CAS 可 能 包括 多 个 分 析 数 据 或 文档 的 视图 。 例 如 ， 一 个 语音 到 语音 的 应 用 程序 
可 能 会 从 一 个 包含 一 段 音 频 的 视图 开始 ， 随 后 加 入 一 个 包含 由 语音 到 文本 的 引 警 所 生成 的 
文本 记录 的 视图 ， 然 后 视图 保存 由 翻译 引擎 生成 的 翻译 。 每 个 视图 包含 它 的 数据 表示 ， 连 
同 注释 和 索引 在 内 ， 这 种 表示 为 引擎 提供 一 个 一 致 的 、 自 然 的 接口 ， 并 且 独 立 于 数据 的 原 
始 形式 。 网 络 爬 虫 可 能 开始 于 一 个 HTML 视图 ， 然 后 创建 一 个 去 掉 标 签 的 文本 视图 ， 进 
而 创建 去 掉 标 签 的 文本 翻译 视图 。 这 使 得 翻译 引 警 服务 能 够 处 理 来 自 音频 和 Web 应 用 程 
序 的 CAS， 仅 分 析 包含 文字 转录 或 去 除了 标记 的 文本 。 类 型 系统 中 的 某 些 类 型 可 以 在 视图 
之 间 提 供 交 叉 引 用 ， 因 此 可 以 保持 对 齐 。 

AE 通常 用 一 个 单一 的 CAS 作为 输入 并 添加 其 结果 ,但 还 可 以 创建 从 其 输入 CAS F 
出 的 新 CAS。 以 这 种 方式 ，AE 可 以 把 分 析 的 数据 划分 成 较 小 的 片段 ， 或 者 进行 复制 以 便 
用 聚合 的 不 同 部 分 来 处 理 ， 或 者 根据 数据 中 检测 到 的 特征 把 初始 CAS 序列 再 分 割 成 一 序 
列 。 一 个 应 用 程序 可 能 首先 把 一 个 长 音频 流 分 割 成 较 短 的 固定 长 度 的 片段 ， 然 后 根据 在 转 
录 文 本 中 检测 的 边界 ， 再 分 割 成 可 变 长 度 的 片段 。 

4. 鲁 棒 性 处 理 

Apache UIMA 为 每 个 AE 提供 了 大 量 的 可 配置 的 错误 处 理 选 项 。 错 误 可 能 是 由 于 基 
础 设施 的 问题 引起 的 ， 如 远程 服务 、 连 接 失 败 ， 或 诸如 无 效 数据 引起 的 应 用 程序 的 问题 。 
在 这 两 种 情况 下 ， 流 量 控制 器 可 以 决定 是 否 重 试 ， 以 决定 未 经 AE 处 理 的 CAS 是 否 继 续 ， 
或 终止 应 用 程序 。 如 果 连 接 失败 是 短暂 的 或 者 如 果 服 务 已 经 部 署 了 多 个 AE， 则 重 试 是 适 
当 的 。 如 果 一 个 远程 服务 产生 许多 不 可 接受 的 错误 ， 则 可 以 将 流量 控制 器 配置 为 避免 流量 
流向 该 AE， 或 者 改变 为 流向 男 外 一 个 AE, 

远程 服务 使 用 统计 信息 可 以 实现 监控 ， 以 帮助 识别 瓶颈 或 未 被 充分 利用 的 资源 。 
Apache UIMA 也 没有 一 个 完整 的 生命 周期 管理 系统 ， 但 一 些 应 用 程序 已 使 用 外 部 资源 来 
实现 此 功能 ， 如 IBM WebSpere 应 用 服务 器 社区 版 或 JCraft (Java 下 的 SSH). 


16.3.2 GATE 


GATE (General Architecture for Text Engeering， 文 本 工程 的 通用 架构 ) [10] 是 谢 
菲尔德 大 学 所 开发 的 、 用 于 自然 语言 处 理 实验 的 工具 。 它 包括 具有 图 形 界面 的 开发 环 
境 ， 以 及 一 套 由 语言 和 处 理 资 源 组 成 的 、 可 重复 使 用 的 组 件 。 它 支持 一 个 简单 的 以 
JavaBeans 实 现 的 标注 流水 线 ， 这 些 JavaBeans 的 文档 和 标注 可 用 Java 对 象 的 特征 映射 
(feature map) 来 扩充 。 目 前 ，GATE 局 限于 处 理 预 定义 的 文本 文档 语料库 ， 没 有 远程 
执行 ， 并 且 组 件 顺序 执行 ， 可 根据 数据 跳 过 一 些 组 件 。 由 于 UIMA 和 GATE 共享 有 序 、 
重 倒 、 类 型 化 的 标注 的 类 似 概 念 ， 已 经 开发 出 一 些 封装 允许 GATE 应 用 程序 作为 UIMA 
分 析 引 警 ， 反 之 亦 然 ， 通 过 XML 映射 文件 介绍 怎样 将 特定 标注 进行 转换 。 通 过 这 种 方 
法 ，GATE 应 用 程序 可 以 得 益 于 UIMA 的 灵活 部 署 特性 ， 而 UIMA 应 用 程序 也 得 益 于 
GATE 提供 的 许多 插件 。 
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1. 灵活 的 分 布 式 组 件 化 

组 件 接口 只 支持 Java， 因 此 用 其 他 语言 比如 C++. Tel 编写 的 组 件 必须 封装 。 数 据 
类 型 很 容易 定制 ， 因 为 标注 是 保持 感 兴趣 区 域 的 开始 和 结束 偏 移 量 的 Java 对 象 ， 以 及 另 
外 的 涉及 其 他 的 标注 或 Java 对 象 的 引用 。 

2. 计算 效率 

远程 执行 、 流 水 操作 、 并 行 处 理 和 横向 扩展 都 不 支持 。 

3. 数据 操作 能 力 

处 理 仅 局 限于 文本 文件 

4. 鲁 棒 性 处 理 

因为 所 有 的 执行 过 程 都 是 本 地 的 ， 因 此 很 少 有 机 会 能 从 错误 中 恢复 。 


16.3.3 InfoSphere Streams 


InfoSphere Streams [11] 是 由 IBM 公司 提供 的 商业 产品 ， 设 计 用 于 多 个 实时 资源 信 
息 流 的 快速 分 析 ， 提 高 了 不 同 领域 的 决策 速度 和 准确 性 ， 如 保健 、 天 文 、 制 造 和 金融 交 
易 。 应 用 程序 被 开发 为 数据 流 处 理 图 ， 其 中 每 个 处 理 单元 消耗 并 产生 多 个 事件 流 ， 用 可 用 
计算 资源 对 图 的 元 素 进 行 自动 峰值。 处理 单 元 声明 操作 的 每 个 数据 流 的 名 称 和 类 型 ， 并 是 
框架 通过 把 消费 者 的 输入 要 求 与 适当 的 流 生产 者 进行 匹配 以 编制 流 图 。 

1. 灵活 的 分 布 式 组 件 化 

处 理 单元 可 能 是 用 Java 或 C+ 十 + 编写 的 ， 但 是 唯一 的 支持 平台 是 Linux。 组 件 之 间 的 
数据 流 没 有 限制 ; 数据 流 的 每 种 类 型 都 要 命名 ， 并 上 且 与 处 理 单元 的 输入 和 输出 流 联系 起 
来 。 任 何 数据 封装 模型 的 缺少 都 会 复杂 化 组 件 的 共享 和 重用 。 

2. 计算 效率 

由 于 每 个 组 件 是 数据 驱动 的 ， 所 以 流水 操作 支持 是 固有 的 。 当 组 件 消 耗 相 同 的 流 时 ， 
就 实现 了 并 行 处 理 ， 分 离 的 输出 流 输 送 到 “接合 ”组 件 ， 从 而 合并 为 一 个 单一 的 数据 流 。 
流 可 以 被 过 滤 成 多 个 较 慢 速度 的 流 ， 在 相对 缓慢 的 组 件 的 多 个 实例 中 分 配 工 作 量 ， 然 后 合 
并 成 单一 的 数据 流 。 

3. 数据 操作 功能 

由 于 没有 固定 的 数据 模型 ， 因 此 应 用 程序 负责 所 有 的 数据 管理 。 

4. 鲁 棒 性 处 理 

框架 监控 每 个 组 件 的 状态 ， 出 现 故障 时 可 以 重新 启动 组 件 或 将 其 移 到 另 一 台 机 器 上 ， 
重新 连接 所 有 的 数据 流 。 除 非 已 被 声明 为 “高 可 用 性 ”组 件 ， 和 否则 一 些 数据 可 能 会 丢失 。 
有 大 量 处 理 资 源 时 ， 采 用 可 视 化 工具 则 有 助 于 优化 组 件 的 布局 ， 但 是 这 些 必须 是 相同 操作 
环境 下 的 专用 资源 。 | 

架构 设计 的 焦点 一 直 是 实时 数据 的 高 带宽 、 低 延迟 处 理 ， 比 如 股市 交易 、 新 闻 提 要 、 
天 气 数 据 和 RFID 事件 ， 在 应 用 程序 过 载 的 情况 下 ， 某 个 流 的 一 些 数据 包 的 丢失 是 可 以 接 
受 的 。 它 应 该 能 够 处 理 与 音频 和 文档 的 NLP 流 相 关联 的 、 更 大 的 上 下 文 关键 数据 包 ， 并 
可 能 适合 于 一 些 具 有 较 强 实时 性 要 求 的 应 用 程序 。 


16.4 案例 研究 
在 以 下 三 个 案例 研究 中 ， 我 们 描述 了 不 同 需求 的 应 用 程序 〈 例 如 ， 远 程 与 本 地 处 理 、 
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实时 响应 与 批 处 理 、 专 用 与 共享 的 引擎 服务 )。 因 为 重点 是 描述 与 各 种 聚合 场景 相关 的 问 
题 ， 而 不 是 比较 聚合 软件 框架 相关 的 问题 ， 而 且 因 为 三 个 应 用 程序 都 需要 Apache UIMA 
支持 的 最 好 功能 ， 所 以 三 个 案例 都 讨论 UIMA RS, 


.16.4.1 GALE 互 操作 性 演示 系统 


大 型 的 、 分 布 式 语音 和 文本 处 理 引 警 的 聚合 的 一 个 例子 是 互 操 作 性 演示 CInteropera- 
bility Demo, IOD) [16] 系统 ， 由 美国 国防 高 级 研究 项 目 局 (Defense Advanced Research 
Project Agency, DARPA) 所 赞助 的 全 球 自主 语言 开发 (Global Autonomous Language 
Exploitation, GALE) 研究 计划 所 开发 的 系统 。GALE 包含 了 推进 许多 语音 和 文本 处 理 技 
术 的 研究 ， 而 IOD 的 目标 是 为 了 证 明 在 许多 GALE 网 站 上 运行 的 引擎 间 的 互 操作 性 。UTL- 
MA 被 选 为 IOD 的 聚合 框架 ， 是 因为 它 非 常 适合 处 理 语音 和 文本 ， 以 及 处 理 各 种 计算 环境 
下 运行 的 原 有 引擎 。 本 节 中 IOD 的 描述 举例 证 明 并 解释 了 如 何 使 用 UIMA 从 一 组 引擎 中 
创建 聚合 系统 。 

IOD 由 两 个 应 用 程序 组 成 ， 由 从 美国 和 欧洲 的 大 学 和 公司 中 运行 的 15 个 引擎 聚合 而 
得 。 其 中 一 个 应 用 程序 一 一 IODzvideo， 采 用 全 部 15 个 引擎 使 得 阿拉 伯 语 广播 新 闻 可 以 浏 
览 英 语文 本 ， 并 通过 英语 语音 合成 转换 成 语音 。 另 一 个 应 用 程序 ，IOD-web， 使 用 相同 引 
警 的 一 个 子 集 使 得 阿拉 人 语 网 页 文本 类 似 地 可 用 英语 浏览 和 收听 。 为 了 实现 这 一 点 ，IOD 
运行 各 种 各 样 的 引擎 功能 : 方言 识别 (DID)、 人 性 别 或 说 话 者 检测 (GSD) 、 语 音 到 文本 转 
换 (STT)、 命 名 实体 检测 (ED)、 转 换 为 英文 的 机 器 翻译 (MT)、 能 执行 系统 组 合 功能 
的 多 引擎 机 顺 翻 译 (MEMT)、 故 事 边界 检测 “SBD)、 故 事 的 主题 聚 类 (TC)、 产 生 主题 
摘要 的 多 文档 文摘 、 故 事 和 话题 的 标题 生成 、 文 本 到 语音 的 合成 (TITS)。 这 些 引 擎 运行 
在 原来 的 网 站 上 它们 本 地 的 操作 系统 里 Linux 或 者 Microsoft Windows， 用 它们 的 本 
地 编程 语言 一 一 C 十 十 、Java、Tcl、Perl 或 它们 的 结合 物 。 目 前 ， 这 些 网 站 包括 IBM [1， 
8，9，18]、 纽 约 的 哥伦比亚 大 学 [19j、 宾 夕 法 尼 亚 州 的 卡 内 基 梅 隆 大 学 CCMU) [12, 
14]、 马 萨 诸 塞 州 的 Raytheon BBN 科技 [5]、 德 国 的 亚 琛 工业 大 学 [6]. AEA Systran 
公司 、 在 阿 默 斯 特 市 的 马萨诸塞 大 学 [2]。 这 些 应 用 程序 参见 图 16-1. 

IOD 每 天 处 理 两 个 阿拉 伯 新 闻 网 阿拉 伯 电 视 台 和 半岛 电视 台 的 大 约 4 小 时 的 新 闻 节 
目 ， 持 续 超过 3 年 的 时 间 。IOD 的 输入 由 分 割 成 2 分 钟 的 片段 节目 组 成 ， 选 择 该 持续 时 间 
是 为 音频 处 理 提供 足够 的 上 下 文 ， 同 时 避免 过 度 延 迟 。 在 处 理 期 间 ， 根 据 检测 到 的 故事 边 
界 ， 聚 合 器 重新 分 割 该 内 容 。 结 束 时 ， 它 和 输出 到 浏览 器 界面 ， 其 内 容 有 主题 标题 的 全 单列 
表 和 从 翻译 合成 的 任意 英语 音频 。 点 击 主题 标题 可 以 挖掘 到 主题 摘要 、 故 事 提要 、 实 体 提 
及 、 对 齐 到 视频 关键 帧 的 故事 翻译 ， 所 有 这 些 都 是 由 聚合 器 生成 的 。 

IOD-web 把 初始 内 容 作 为 文本 处 理 ， 因 此 跳 过 了 音频 处 理 引 擎 。 这 个 聚合 程序 以 一 个 
从 内 容 中 去 除 HTML 标签 和 相关 材料 的 组 件 开始 。 由 于 大 部 分 处 理 的 网 页 已 经 是 故事 ， 
因此 IOD-web 应 用 程序 也 跳 过 故事 边界 检测 。 


l. 功能 描述 

IOD 引擎 在 图 16-1 中 被 描绘 成 黑体 文本 框 。IOD-video 从 确定 不 同 的 阿拉 伯 语 方言 和 
说 话 者 性 别 的 时 间 跨 度 开始 。 在 已 知 演讲 者 的 情况 下 ， 上 比如 经 常 出 现 的 主持 人 和 世界 领 
袖 ， 它 也 确定 说 话 人 身份 的 时 间 跨 度 。 然 后 片段 被 同时 传递 到 若干 STT 引擎， 并 行 产 生 
阿拉 伯 语 语音 的 转录 。 当 所 有 STT 引擎 已 经 处 理 完毕 ， 再 对 结果 文本 进行 阿拉 伯 语 实体 
检测 ， 然 后 片段 被 同时 发 送 到 若干 MT 引擎 。 采 用 多 个 STT 和 MT 引擎 有 两 个 原因 。 一 
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图 16-1 IOD 应 用 程序 的 引擎 聚合 系统 框图 。 细 实 线 箭头 表示 IOD-video 应 用 程序 的 数据 
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个 是 采用 MEMT， 即 系统 组 合 引 擎 ， 从 每 个 STT-MT 所 提供 的 组 合 中 挖掘 出 更 好 的 翻 

译 。 另 一 原因 是 在 一 个 或 两 个 任意 类 型 的 引擎 失败 或 网 络 连接 失败 的 情况 下 ， 提 供 容 错 机 

制 。 故 事 边 界 检测 利用 阿拉 伯 语 转录 文本 和 定时 信息 ， 比 如 STT 检测 的 停顿 。 主 题 聚 类 

把 主题 标示 符 赋 给 每 一 个 故事 ， 使 得 被 分 类 为 相同 主题 的 故事 共享 相同 的 标示 符 。 多 文档 

233| ”摘要 在 每 一 个 故事 段 土 用 标记 相同 主题 标示 符 的 所 有 故事 的 一 个 汇总 摘要 来 标注 。 标 题 生 
成 引擎 添 如 了 来 源 于 故事 翻译 的 标题 和 另 一 个 来 源 于 摘要 的 标题 ， 并 且 文 本 到 语音 的 合成 
引擎 通过 翻译 创建 了 一 个 音频 流 。 
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2. 实现 
视图 IOD 使 用 三 种 视图 为 每 个 引擎 提供 需要 的 输入 数据 : 
。 一 个 音频 视图 ， 把 段 内 容 表示 为 一 系列 波形 样本 ; 
对 每 个 STT 引 警 的 一 个 阿拉 伯 语 文本 视图 ， 基 于 SST 引 敬 文字 转录 输出 ， 把 段 内 
容 表 示 为 阿拉 伯 语 字符 序列 ; 
。 一 个 英文 文本 视图 ， 典 型 地 基于 MEMT 引擎 的 翻译 输出 ， 把 段 内 容 表 示 为 英文 字 
IFFI 

这 种 安排 能 够 使 音频 处 理 引 擎 只 看 音频 视图 ， 而 文本 处 理 引擎 只 看 文本 视图 。 单 语 引 
擎 只 看 没有 被 其 他 语言 内 容 混淆 的 相关 视图 。 

类 型 系统 GALE 类 型 系统 (GALE Type System, GTS) [17] 的 创建 是 为 了 NLP 
引擎 的 UIMA 聚合 ， 比 如 IOD。 为 保持 各 种 各 样 的 语音 和 文本 处 理 引 擎 的 输入 和 输出 ， 
GTS 定义 适合 于 音频 和 文本 视图 的 数据 类 型 。 类 型 系统 作为 一 个 通用 的 数据 格式 ， 充 当 
各 引擎 之 间 互 操作 性 的 基础 。 

GTS 描述 代表 每 个 引擎 类 型 输入 和 输出 的 固有 属性 的 数据 类 型 。 例 如 ，STT 引擎 自 
然而 然 地 对 内 容 的 音频 视图 进行 操作 ， 也 就 是 大 量 的 语音 样本 代表 了 一 段 时 间 序 列 ， 并 且 
它 的 自然 输出 是 口语 词 的 转录 。GTS 提供 了 一 个 名 为 AudioTokene 的 数据 类 型 代表 这 个 
输出 ;此 类 型 提供 了 一 个 字符 串 属性 “spelling”， 用 来 保存 单词 。 浮 点 值 属 性 begin, end 
和 confidence 保存 音频 视图 中 单词 的 开始 和 结束 时 间 ， 以 及 识别 结果 的 置信 和 度 。 一 些 STT 
引擎 输出 使 用 的 男 一 个 GTS 类 型 是 SU (sentence unit, 句子 单元 ); 它 同 样 有 begin 和 
end 属性 ， 并 且 它 的 存在 标志 着 引擎 相信 这 些 时 间 点 括 起 了 一 个 句子 。 

同样， 对 于 一 个 文本 处 理 引 擎 的 自然 输入 ， 比 如 MT 引擎， 被 名 为 WordToken 和 
Sentence 的 GTS 类 型 所 代表 ， 两 者 都 具有 整数 属性 begin 和 end， 代 表 组 成 文本 视图 的 字 
符 数组 索引 ， 对 于 文本 处 理 引 警 来 说 是 内 容 的 自然 视图 。 

应 当 注 意 ， 在 聚合 包含 语音 到 文本 引擎 紧 接 着 一 个 文本 处 理 引 擎 的 情况 下 ，AudioTo- 
-kens 和 SU 很 可 能 分 别 与 WordToken 和 Sentence 对 象 有 一 一 对 应 关系 。 然 而 ， 这 些 相 应 
的 数据 类 型 是 不 一 样 的 。 具 体 而 言 ， 语 音 数 据 类 型 面向 基于 时 间 的 视图 ， 如 音频 视图 ， 这 
对 于 语音 处 理 引 擎 是 合适 的 ， 但 WordToken 和 Sentence 反映 了 一 个 字符 串 的 位 置 而 没有 
参考 时 间 ， 同 样 适 合 对 音频 和 时 间 一 无 所 知 的 文本 处 理 引 擎 。 因 此 ， 当 聚合 这 类 引擎 时 ， 
正如 16.4.1 节 所 描述 的 ， 数 据 重 组 组 件 ， 在 语音 到 文本 之 后 、 文 本 处 理 之 前 调用 ， 以 利 
用 由 语音 到 文本 引擎 已 放置 在 音频 视图 里 的 数据 创建 适当 的 文本 视图 和 在 这 些 视图 里 的 面 
向 文本 的 对 象 类 型 。 此 外 ，GST 提供 了 交叉 引用 类 型 ， 如 AudioXref， 此 引用 类 型 映射 到 
视图 中 以 使 相同 内 容 的 各 种 表示 保持 互相 对 齐 。 此 类 型 能 够 与 音频 时 间 同步 翻译 输出 ， 便 
于 自动 的 音频 字幕 。 

GST 描述 了 更 多 数据 类 型 ， 这 些 数据 类 型 适合 许多 其 他 类 型 的 引擎 ， 比 如 实体 检测 、 
故事 边界 检测 、 说 话 者 识别 。 

注意 ， 类 型 系统 的 规范 在 构成 聚合 的 引擎 之 间 不 构成 完整 的 数据 “契约 ”。 除 了 像 
GTS 的 共享 类 型 系统 ， 聚合 的 设计 需要 描述 怎样 使 用 类 型 系统 。 这 包括 一 些 问 题 ， 比 如 哪 
个 引擎 负责 创建 哪 种 类 型 ， 哪 种 类 型 和 哪 种 属性 是 必要 的 还 是 可 选 的 。 例 如 在 TOD 中 , STT 
引擎 需要 生成 AudioTokens, fl confidence 属性 是 可 选 的 ， 而 且 SU 类 型 也 是 可 选 的 。 


全 ”打字 字体 用 于 指示 GTS 的 类 型 和 属性 。 


534 


535 


390 $B—352 F X 


使 引擎 适应 UIMA 由 于 IOD 采用 的 引擎 先 于 聚合 ， 因 此 它们 需要 适应 UIMA 框架 和 
GTS 数据 模型 。UIMA 有 一 个 简单 的 API, 该 API 只 有 一 个 必需 的 方法 来 处 理 数 据 段 。 
如 果 引 擎 需要 特殊 的 初始 化 或 终止 操作 ， 则 其 他 方法 可 能 也 要 被 实现 。GTS 为 每 个 引擎 
功能 提供 目 然 的 数据 类 型 。 因 此 ， 实 际 上 只 需 提 供 引 警 的 一 个 小 封装 以 符合 API 和 数据 格 
式 。 具 体 地 ， 当 已 经 存在 的 引擎 被 UIMA 封装 时 ， 封 装 器 的 处 理 功能 通常 把 表示 输入 的 
GTS 类 型 转换 成 引擎 规定 的 格式 ， 运 行 该 引擎 ， 然 后 把 它 的 输出 转换 成 表示 其 引擎 功能 
的 适当 的 GTS 输出 类 型 。 这 些 转换 一 般 是 很 直接 的 ， 因 为 GTS 类 型 就 是 为 反映 每 个 引擎 
功能 固有 的 输入 和 输出 而 设计 的 。 封 装 一 个 模拟 STT 引擎 以 成 为 一 个 AE 的 代码 如 本 章 
最 后 的 16.7 节 所 示 。 

数据 重组 ”如 前 所 述 ， 组 装 一 个 包括 STT 和 文本 处 理 引 擎 的 应 用 程序 需要 在 STT 之 
后 使 用 数据 重组 组 件 ， 以 负责 : 

1) 通过 拼接 AudioTokens 中 的 字符 串 创建 文本 视图 。 

2) 创建 一 组 Sentence 标注 ， 把 音频 视图 中 时 间 跨 度 的 SU 转换 成 文本 视图 的 字符 跨度 。 

3) 创建 AudioXrfef， 把 文本 视图 中 的 单词 显示 对 齐 到 产生 它们 的 AudioTokens， 以 便 
维持 时 间 对 齐 。 

4) 在 文本 视图 上 创建 WordToken 标注 ， 便 于 为 后 续 的 文本 处 理 引 擎 所 用 。 

用 这 种 方法 ， 聚 合 程序 跨越 了 STT 与 文本 处 理 之 间 的 不 兼容 性 以 及 STT 固有 输出 与 
文本 处 理 引 擎 输入 之 间 的 差异 。 这 个 组 件 在 图 16-1 中 被 描述 为 “创建 阿拉 伯 语 文本 视 
图 ”。 注 意 ， 包 含 多 个 STT 引擎 的 聚合 将 产生 多 个 并 行 转 录 ， 每 个 转录 导致 内 容 的 为 一 个 
阿拉 人 语文 本 视图 。 

数据 重组 组 件 在 概念 上 与 STT、MT 等 “5 引擎 ”很 不 相同 ， 后 者 往往 代表 正在 进 
行 研 究 的 主题 一 一 实验 性 NLP 技术 ， 然 而 数据 重组 组 件 会 执行 更 多 “机 械 性 的 ”数据 操 
作 任 务 。 然 而 ， 就 UIMA 框架 而 言 ， 这 两 种 组 件 类 型 看 起 来 是 相同 的 ， 都 作为 AE 实现 ， 
一 个 用 来 实现 数据 重组 组 件 最 后 一 步 的 AE 代码 附加 于 本 章 最 后 部 分 的 16.7 节 。 

类 似 地 ， 在 图 16-1 中 非 粗 体 框 表示 的 是 其 他 数据 重组 组 件 也 是 需要 的 ， 用 于 在 LOD 
的 引擎 之 间 的 接口 起 到 类 似 作 用 。 一 个 类 似 于 前 文 所 述 组 件 从 MT 和 MEMT 在 阿拉 伯 语 
文本 跨度 上 标注 的 英语 翻译 字符 串 上 创建 英语 文本 视图 ， 并 且 在 英语 和 阿拉 伯 语 之 间 映 射 
标注 ， 如 命名 实体 。 这 是 有 必要 的 ， 因 为 翻译 引擎 内 在 地 处 理 多 种 语言 ， 并 由 此 生成 
TranslationResult 的 GTS 对 象 ，TranslationResult 把 一 种 语言 文本 视图 中 的 一 串 字 符 用 
另 一 种 语言 的 字符 串 来 标注 。 许 多 其 他 文本 处 理 引 敬一 次 处 理 一 种 语言 ， 因 此 处 理 MT 输 
出 的 引擎 需要 目标 语言 的 视图 ， 因 此 “创建 英语 文本 视图 ”数据 重组 组 件 建立 一 个 英语 文 
本 视图 ， 为 之 后 的 引擎 在 不 知道 阿拉 伯 语 的 情况 下 处 理 英 语 提供 服务 。 

在 MT 之 前 ， 另 一 个 数据 重组 组 件 “ 准 备 MT” 创 建 男 外 的 GTS 数据 类 型 Translata- 
ble 指定 需 一 一 翻译 的 组 块 。 目 前 ， 这 些 仅 是 Sentence， 但 也 可 以 由 一 些 其 他 算法 定义 ， 
如 把 文本 字符 串 合成 更 长 的 单元 以 便 MT 引擎 可 受益 于 更 多 的 上 下 文 ， 或 分 解 成 更 短 的 单 
元 以 便 专 门 的 翻译 引擎 处 理 ， 如 名 字 翻 译 引 擎 。 另 外 一 个 组 件 “故事 分 割 ” 根 据 在 其 之 前 
的 引擎 检测 的 故事 边界 把 内 容重 新 分 割 成 故事 片段 .。 “故事 分 割 ” 创 建新 的 CAS， 其 数据 
元 素 对 应 于 原来 的 2 分 钟 片段 ， 但 是 根据 新 的 边界 重新 索引 。 这 个 重组 组 件 服务 于 之 后 的 
引擎 ， 这 些 引 擎 的 自然 输入 是 故事 ， 比 如 主题 聚 类 、 摘 要 、 标 题 生 成 。 

最 后 ， 两 个 组 件 没 有 画 出 来 ， 但 前 后 穿插 了 整个 过 程 ， 一 个 是 在 聚合 开始 前 读 取 输入 
数据 的 集合 并 创建 CAS， 另 一 个 是 在 聚合 的 最 后 从 CAS 中 提取 数据 转换 成 应 用 程序 所 需 
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的 格式 。 在 UIMA 中 它们 分 别 被 称 为 数据 集 读者 组 件 和 CAS 消费 者 组 件 。 

上 下 文 相关 处 理 IOD 的 片段 以 两 种 不 同 的 方式 处 理 需 要 该 片段 之 外 的 上 下 文 。 一 种 
方式 涉及 紧 紧 围绕 的 片段 。 故 事 边 界 检测 模型 为 6 分 钟 窗 口 的 中 间 2 分 钟 提供 输出 。 给 定 
IOD 的 2 分 钟 片段 ， 这 个 引擎 因此 必须 缓冲 一 个 片段 ， 仅 在 收 到 N 十 1 段 后 在 N 段 的 一 个 
节目 上 生成 它 的 输出 ， 这 样 该 输出 才能 基于 由 片段 N 一 1、N、N+1 组 成 的 6 分 钟 窗 日 。 

其 他 上 下 文 依赖 性 包括 主题 聚 类 和 摘要 ， 必 须 维持 与 每 个 主题 聚 类 相关 的 、 以 往 内 容 
的 历史 ， 这 样 才 可 以 为 当前 的 片段 赋 以 适当 的 聚 类 ， 为 主题 内 容 生成 一 个 累积 的 摘要 信 
县 。 根 据 客 户 端 应 用 程序 实例 ， 这 两 个 引擎 维护 的 历史 应 该 被 隔离 ， 从 而 保证 不 同 用 户 的 
历史 不 会 混在 一 起 。 

计算 效率 如 前 所 述 ，IOD 调用 多 个 引擎 ， 在 同一 片段 上 并 行 处 理 相 同 的 功能 ， 因 为 
这 些 引 擎 对 同样 的 输入 类 型 产生 同样 的 输出 类 型 ， 因 此 相互 没有 依赖 。IOD 也 可 以 一 次 性 
将 多 个 片段 通过 聚合 传输 ， 一 旦 第 一 个 片段 经 第 一 个 引 警 处 理 完 , 第 二 个 片段 马上 进入 第 
一 个 引擎 ， 而 不 是 等 待 第 一 个 片段 退出 整个 聚合 之 后 。 

除了 并 行 调用 引擎 和 多 个 片段 的 流水 线 处 理 技术 ，IOD 还 利用 了 UIMA 对 于 配置 控 
制 流 的 其 他 特征 。 可 配置 聚合 器 为 每 种 引擎 服务 处 理 超时 ， 以 及 超时 出 现时 决定 如 何 采 取 
下 一 步 动 作 。 例 如 ， 在 某 个 STT 或 实体 识别 引擎 因 本 身 失 效 或 网 络 连接 发 生 故 障 时 ， 因 
为 有 其 他 STT 引擎 ， 聚 合 系统 会 继续 运行 。 作 为 另 一 个 例子 ， 假 如 自动 文摘 引擎 无 法 正 
常 工作 ，IOD 会 启动 一 个 简单 的 备份 组 件 ， 把 所 有 同一 主题 的 文本 翻译 拼接 起 来 ， 这 虽然 
不 能 取代 文本 摘要 ， 但 是 可 以 为 后 续 的 引擎 提供 可 信 的 输入 ， 以 便 为 该 主题 生成 标题 。 当 
多 引擎 翻译 服务 失效 时 ， 男 一 种 流标 准 适用 。 在 这 种 情况 下 ,一 个 STT-MT 组 合 产 生 的 
翻译 结果 可 以 作为 首选 的 翻译 使 处 理 继 续 进 行 。 然 而 ， 当 故事 边界 检测 失败 时 ， 由 于 系统 
没有 后 备 提供 后 续 处 理 所 需 要 的 功能 ， 应 用 终止 。 

实际 上 ,一 个 引擎 功能 一 一 STT， 比 其 他 引 敬 需要 更 多 的 计算 。 为 了 减轻 对 否 吐 量 的 
有 影响， 部 署 了 两 个 STT 引擎 的 多 个 实例 ， 以 服务 于 这 些 引 擎 的 客户 任务 队列 ， 如 图 16-1 
HERRER. X F IOD-web， 多 引擎 机 器 翻译 (MEMT) 是 瓶颈 问题 ， 因 此 相应 地 部 
署 了 两 个 MEMT 引擎 实例 。 

IOD 利用 了 UIMA 提供 的 引擎 服务 能 力 使 其 为 多 种 应 用 程序 所 共享 。IOD-video 和 
IOD-web 同时 对 IOD 的 许多 引擎 服务 的 请 求 进行 排队 。 这 种 能 力 和 多 实例 部 署 能 力 是 为 
使 用 一 系列 引擎 服务 的 大 量 应 用 程序 的 可 伸缩 部 署 进行 动态 负载 均衡 的 关键 。 

3. 灵活 的 应 用 程序 构建 

除了 IOD-video 和 IOD-web 外 ， 一 个 基于 GUI 的 应 用 程序 配置 工具 一 一 UIMA 组 件 
容器 (UIMA Component Container, UCC), 已 经 部 署 于 卡 内 基 梅 隆 大 学 。UCC 允许 用 户 
上 传 数据 并 配置 IOD 引擎 的 聚合 来 处 理 上 传 的 数据 。UCC 通过 添加 必需 的 数据 重组 组 件 
来 自动 完成 聚合 。 


16.4.2 ” 跨 语言 自动 语言 开发 系统 

TALES (Translingual Automated Language Exploitation System) # IBM 公司 开发 
的 类 似 于 IOD 的 聚合 系统 也 用 UIMA 实现 ， 集 成 了 语音 识别 、 人 信息、 翻译 等 功能 。 但 
TALES 的 聚合 场景 有 所 不 同 ， 它 操作 在 同一 地 理 位 置 的 机 器 集群 ， 处 理 多 语言 ， 它 接近 
于 一 个 生产 系统 ,包括 部 分 操作 的 实时 需求 。 

TALES 是 一 个 集成 了 视频 处 理 和 Web 处 理 的 聚合 器 ， 参 见 图 16-2, TALIS 聚合 的 
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引擎 包括 实体 识别 、 其 他 语种 到 英语 的 翻译 ， 以 及 用 于 各 种 类 型 的 数据 搜索 、 浏 览 以 及 监 
控 等 的 设备 。 除 此 以 外 ，TALES 的 视频 处 理 聚 合 器 包括 STT、 性 别 和 说 话 人 识别 、 语 
言 /方言 检测 以 及 英语 文本 到 语音 合成 等 。 已 经 部 署 的 TALES 的 几 个 实例 ， 机 器 的 数目 
不 同 ， 处 理 的 视频 频道 数目 也 不 同 ， 人 处 理 的 语言 数目 也 不 同 ， 如 阿拉 伯 语 、 汉 语 、 西 班 牙 
语 和 英语 等 。 

源 语言 视频 源 语言 网 页 


创建 音频 视图 





性 别 识别 


说 话 者 识别 


从 副本 中 创建 源 语言 文本 视图 创建 源 语言 文本 视图 


命名 实体 识别 


创建 目标 语言 文本 视图 
源 文本 用 户 
FP RRR A at 


标记 用 户 


用 户 搜索 


语言 /对 话 检测 


视频 队列 用 户 网 站 队列 用 户 


图 16-2 TALES 聚合 系统 图 


TALES 的 最 高 优先 级 保持 与 输入 视频 流 同 步 ， 通 过 调节 STT 模型 使 得 每 个 2 分 钟 的 
视频 片段 所 需 的 处 理 时 间 实 现 低 于 2 分 钟 ， 并 且 对 于 每 个 视频 频道 都 有 专门 的 聚合 右 和 处 
理 硬件 。 机 器 翻译 (MT) 是 个 特例 ， 由 于 语言 模型 的 庞大 ， 机 器 翻译 的 若干 实例 在 多 个 
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聚合 系统 间 共 享 ，Web 处 理 聚 合 器 的 请 求 处 于 次 要 位 置 ， 因 为 视频 处 理 要 求实 时 性 。 


TALES 运行 在 无 须 外 界 网 络 连 接 的 环境 中 ， 仅 需要 提供 视频 流 与 一 个 网 络 息 虫 。 


TALES 聚合 需 可 终止 于 寿 干 个 组 件 ， 使 得 对 输出 进行 多 种 使 用 ， 如 : 
。 分 段 浏览 当前 视频 节目 ， 可 使 用 户 播 放 视 频 时 选择 英文 字幕 、 方 言 /说 话 者 标注 、 
实体 高 亮 显示 、 英 语 语音 合成 配音 代替 原始 音频 ; 
。 处 理 内 容 的 英文 关键 词 搜索 包括 根据 日 期 、 原 始 语言 、 来 源 是 视频 还 是 Web 限制 搜索 ; 
。 和 警报， 用 户 发 出 一 个 关键 词 查询 ， 系 统 在 处 理 匹 配 查询 的 新 内 容 后 ， 以 用 户 指定 
的 方式 问 用 户 发 出 警报 ， 比 如 通过 电子 邮件 。 


16.4.3 实时 翻译 服务 


IBM 的 实时 翻译 服务 (Real Time Translation Services, RTTS) 实现 双向 的 、 自 由 形 
式 语音 翻译 ， 帮 助 那 些 不 使 用 相同 语言 的 人 们 进行 沟通 。 对 于 会 话 的 一 个 参与 方 的 每 一 名 
话 ， 采 用 三 个 引擎 : STT、MT、TTS， 向 另外 一 方 提供 翻译 的 语音 。 因 此 ， 虽然 IOD 和 
TALES 的 优先 考虑 分 别 是 分 布 式 处 理 和 吞吐 量 ， 以 与 到 来 的 视频 流 保 持 一 致 ，RTTS 的 
优先 权 是 处 理 多 个 同时 的 低 延 迟 任 务 。RTTS 通过 部 署 作 为 UIMA 服务 的 每 个 引擎 类 型 
的 集群 来 完成 该 任务 。 每 一 个 呼叫 由 一 个 UMA 客户 端 处 理 ， 该 客户 端 发 送 请 求 到 可 以 
提供 所 需 服 务 的 JMS 队列 。 因 为 应 用 程序 直接 地 实现 了 流水 线 式 的 服务 ， 所 以 它 可 以 很 
容易 监控 翻译 的 进度 ， 处 理 任 何 因 过 载 服务 引起 的 延 时 。 这 同样 也 可 以 通过 使 用 一 
UIMA 定 制 的 流量 控制 各 来 完成 。 


16.5 经 验 教训 


使 用 UIMA 配置 的 NLP 应 用 程序 的 经 验 已 经 揭示 出 了 一 些 这 类 聚合 引擎 固有 的 问 
题 。 解 决 接 下 来 讨论 的 问题 是 有 益 的 。 


16.5.1 分割 涉 及 延迟 和 精度 之 间 的 权衡 


处 理 音 频 或 视频 时 ， 我 们 已 逐步 向 处 理 2 分 钟 片段 的 做 法 靠拢 。 每 个 分 割 段 限制 了 可 
被 引擎 利用 以 提高 精度 的 上 下 文 数量 。 然 而 ， 当 引擎 完 成 一 段 后 ， 下 一 个 引擎 才能 开始 工 
作 时 ， 长 片段 会 导致 高 延迟 。 

在 框架 上 增加 一 个 广义 的 “ 流 "操作 模式 ， 操 作 可 能 改善 。 不 作 明确 的 分 割 ， 数 据 可 
以 以 任意 小 的 增 量 从 一 个 组 件 传 递 到 下 一 个 组 件 ， 而 组 件 本 身 要 为 足够 的 上 下 文 工 作 负 
责 ， 因 此 其 输出 总 是 滞后 于 输入 。 这 样 的 变化 将 为 框架 增加 很 大 的 复杂 性 ， 特 别 是 并 行 调 
用 多 个 引擎 后 管理 数据 收集 ， 以 及 在 单 引 擎 服务 上 部 署 多 个 实例 时 调和 这 种 能 力 。 


16. 5.2 联合 优化 与 互 操作 性 


引擎 功能 的 联合 优化 可 以 产生 更 高 的 精度 。 比 如 ， 整 合 一 个 STT 引擎 和 一 个 翻译 引 
擎 的 语言 模型 可 以 减少 不 能 翻译 词语 的 出 现 。 引擎 更 紧密 的 结合 ， 一 般 来 说 可 以 增加 准确 
性 ， 降 低 引 擎 必须 做 出 “艰难 ”决策 的 程度 以 限定 接 下 来 的 引擎 所 要 考虑 的 假设 空间 。 

然而 ， 大 量 引擎 的 聚合 的 互 操作 性 需要 一 个 共享 数据 模型 。 对 于 每 个 引擎 功能 ， 要 有 
一 种 约定 规定 数据 输入 和 输出 的 标准 特性 。 这 样 的 公分 母 模型 将 倾向 于 导致 引擎 间 相对 薄 
的 数据 流 。 比 如 ， 选 择 文本 字符 串 格式 作为 语音 到 文本 引擎 的 标准 输出 和 翻译 引擎 的 输 
入 ， 这 比 选择 假设 的 转录 文本 这 种 格式 更 容易 。 联 合 优 化 的 一 些 好 处 必须 丢弃 以 使 互 操作 
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性 可 行 。 一 个 站 点 的 SITT 引 警 和 MT 引擎 可 能 需要 协调 ， 然 而 互 操 作 性 使 得 每 个 功能 可 
以 用 多 个 引擎 ， 以 便 得 到 系统 组 合 策略 的 好 处 。 


16.5.3 数据 模型 需要 使 用 约定 


对 于 数据 传递 ， 聚 合 基本 上 需要 两 层 模型 。 为 了 使 聚合 程序 运行 ， 一 组 公认 的 数据 类 
型 是 必要 的 ， 比 如 GTS 那样 的 一 个 UIMA 类 型 系统 。 如 前 所 述 ， 类 型 系统 实际 上 是 在 聚 
合 中 协调 引擎 的 API 数据 组 件 ， 以 便 引 擎 可 以 通过 一 个 共同 的 数据 格式 进行 交流 。 

然而 ， 进 一 步 描述 各 种 格式 数据 类 型 的 应 用 约定 还 是 很 有 必要 的 。 一 个 共识 是 ， 哪 个 数 
据 类 型 必须 或 者 可 选 地 被 每 个 组 件 创造 以 及 如 何 用 数据 格式 表示 各 种 异常 的 情况 必须 达成 一 
致 。 独 立 开 发 的 引擎 常 在 标准 输出 流 上 用 局 部 约定 来 编码 异常 情况 ， 比 如 用 某 个 文本 码 对 一 
个 未 知 的 单词 编码 ， 如 果 处 理 不 小 心 ; 它 在 聚合 中 可 能 会 被 随后 的 引擎 误解 为 不 同 的 单词 。 


16.5.4 ”性 能 评估 的 挑战 


对 这 类 聚合 的 准确 率 进行 定量 评估 因为 多 个 因素 而 变 得 复杂 。 其 中 一 个 因素 是 简单 地 
对 引擎 进行 各 种 组 合 。 由 10 个 引擎 功能 组 成 的 集合 中 ， 得 出 的 潜在 聚合 数 范 围 是 45 ~ 
1 013， 这 取决 于 引 警 间 的 相互 依赖 5 。 因 此 ， 用 STT 引擎 转录 的 翻译 故事 的 主题 聚 类 的 
准确 率 估计 区 别 于 文本 源 的 翻译 故事 的 主题 聚 类 等 。 需 要 很 多 的 评价 标准 。 

一 个 相关 的 挑战 是 获取 真实 数据 用 来 和 大 的 聚合 结果 做 比较 的 复杂 性 。 一 般 来 说 ， 每 
个 不 同 的 聚合 需要 自己 的 用 于 评价 的 参考 语料库 ， 这 是 一 项 繁重 的 任务 。 

最 后 ， 一 些 引擎 功能 ， 即 使 孤立 ， 也 缺乏 明确 定义 的 评价 准则 。 例 如 ， 摘 要 和 主题 聚 
类 算法 的 评 佑 必定 有 一 定 程度 的 主观 性 。 

对 于 用 来 聚合 的 引擎 各 方面 准确 性 的 评估 ， 研 究 者 们 已 经 开始 努力 定义 一 个 形式 化 方 
法 ， 目 标 是 形成 量化 评估 准则 ， 以 评价 各 种 引擎 对 聚合 中 整体 错误 率 的 贡献 。 


16.5.5 引擎 的 前 向 波 训练 


理想 地 ， 每 个 统计 引擎 在 运行 时 间接 收 到 的 典型 数据 上 进行 训练 。 在 聚合 的 情况 下 ， 
典型 引擎 的 输入 是 聚合 中 前 面 的 震 干 引擎 的 输出 。 由 于 这 个 原因 ， 当 引擎 更 新 时 ， 无 论 是 
由 于 新 的 算法 、 新 的 训练 数据 ， 或 者 改变 的 模型 格式 ,任何 导致 准确 率 的 改进 在 聚合 中 都 
有 失去 的 风险 ， 因 为 引入 了 其 输出 数据 和 后 续 引 警 过 时 的 训练 条 件 间 的 失 配 。 因 此 ， 聚 合 
的 正确 率 取决 于 引擎 的 前 向 波 训 练 。 理 想 的 是 ， 第 一 个 引擎 更 新 ， 然 后 为 后 续 的 引擎 产生 
新 的 输入 数据 ， 这 些 引擎 用 那些 数据 重新 训练 ， 通 过 那些 引擎 的 聚合 运行 ， 又 为 后 续 的 引 
擎 产生 新 的 训练 数据 ， 依 此 类 推 。 


16.6 总 结 


语音 和 文本 处 理 算法 已 经 进展 到 这 样 一 种 程度 ， 即 尽管 引擎 间 有 混合 错误 ， 但 近 然 不 
同 的 引擎 功能 ， 如 语音 到 文本 、 翻 译 、 命 名 实体 检测 、 文 本 到 语音 ， 以 及 其 他 专用 的 信息 


后 “如 每 个 引擎 N=1, =, 10 被 限制 为 它 前 面 必须 有 N 一 1 个 引擎 或 成 为 聚合 的 开始 ， 并 且 后 面 必须 有 N 十 1 个 
引擎 或 结束 聚合 ， 那 么 可 能 的 聚合 的 数目 是 开始 和 结束 引擎 的 选择 个 数 = 二 10(10 一 1)/2= 二 45。 另 一 极端 的 计算 
方式 是 ， 如 果 引 擎 之 间 没 有 任何 互相 依赖 关系 ， 并 且 每 个 引擎 可 选择 是 否 包括 在 聚合 中 ， 那 么 一 共 可 以 有 
2 一 10 一 1 二 1013 中 聚合 ， 即 每 个 引擎 是 否 包 括 在 聚合 中 的 情形 ， 减 去 只 有 一 个 引擎 (因此 不 成 为 聚合 ) 的 
10 种 情形 ， 减 去 0 个 引擎 的 1 种 情形 。 
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抽取 处 理 器 ， 可 形成 大 规模 的 聚合 ， 提 供 有 用 的 输出 。 引 警 的 聚合 开启 了 路 语言 NLP 应 
用 程序 的 大 门 。 为 了 使 存在 的 引擎 能 灵活 聚合 ， 需 要 像 UIMA 那样 的 软件 架构 来 提供 异 
构 的 计算 环境 、 互 联网 的 远程 操作 ， 以 及 多 种 应 用 程序 客户 端 请 求 的 管理 ， 请 求 由 引擎 服 
务 的 多 个 实例 排队 运行 。 它 也 需要 数据 表示 的 共享 约定 以 及 重组 数据 的 组 件 ， 以 使 聚合 中 
的 引擎 可 以 处 理 前 面 引擎 输出 的 数据 。 这 样 一 个 平台 使 得 复杂 的 、 分 布 式 的 任务 可 以 通过 
分 布 式 引 擎 的 单 点 调用 实现 ， 分 布 式 引擎 在 其 原来 的 环境 中 运行 ， 便 于 由 其 作者 维护 和 改 
进 。 高 准确 率 需 要 引擎 升 级 时 进行 协调 ， 以 使 每 个 引擎 保持 和 所 处 理 数 据 的 类 型 一 致 ， 然 
而 ， 聚 合 准确 率 的 正式 评估 处 于 初级 阶段 ， 因 为 建立 合适 的 评估 准则 和 测试 语料库 是 一 大 挑 
战 。 虽 说 如 此 ， 但 越 来 越 多 的 应 用 已 经 在 运行 ， 从 多 研究 室 原型 到 实时 部 署 系统 都 有 涉及 。 


16.7 UIMA 样本 代码 


几 个 标注 器 作为 Apache UIMA 的 一 部 分 被 打包 在 http://uima. apache. org 的 UIMA 沙 
rh, 其 他 的 可 能 在 CMU 管理 的 UIMA 组 件 库 中 找到 : http://uima. lti. cs. cmu. edu/ UCR, 

下 面 是 一 个 简单 的 执行 部 分 数据 重组 的 分 析 引 擎 的 实现 ， 该 引擎 在 16. 4. 1 节 中 进行 
Y dt. 


import java.util.Iterator; 
import java.util.regex.Matcher; import 
java.util.regex.Pattern; 


import org.apache.uima.analysis, component.JCasAnnotator. ImplBase; 
import org.apache.uima.analysis_engine.AnalysisEngineProcessException; 
import org.apache.uima.cas.CASException; 

import org.apache.uima.jcas.JCas; 

import org.gale.WordToken; 


/水 水 
* Tokenizes all Transcription views creating 
* whitespace-delimited WordToken annotations 


* / 


public class TokenizeMT extends JCasAnnotator ImplBase { 


public void process(JCas aJcas) throws 
AnalysisEngineProcessException { 


Pattern p = Pattern.compile("\\S+") ; 
try { 
Iterator<JCas> viewlIter = aJcas.getViewIterator("SourceText"); 
while (viewIter.hasNext()) { 
JCas view = viewIter.next(); 
Matcher m = p.matcher(view.getDocumentText ()); 
while (m.find()) { 
(new WordToken(view, m.start(), m.end())).addToIndexes() ; 
} 
} 
} catch (CASException e) { 
throw new AnalysisEngineProcessException(e) ; 
} 
} 
} 


所 有 的 UIMA 标注 器 必须 有 一 个 XML 组 件 描述 器 ， 描 述 接 口 、 名 称 、 数 据 类 型 和 任 
何 所 需 的 参数 。 上 述 标 注 器 的 简单 XML 组 件 描 述 右 如 下 : 
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<?xml version="1.0" encoding="UTF-8"7> 
<analysisEngineDescription 
xmlns="http://uima.apache.org/resourceSpecifier"> 
<frameworkImplementation>org.apache.uima. java 
</frameworkImplementation> 
<primitive>true</primitive> 
<annotatorImplementationName>org.gale.pipe.TokenizeMT 
</annotatorImplementat ionName> 
<analysisEngineMetaData> 
<typeSystemDescription> 
<imports> 
<import name="GaleTokenTypes"/> 
</imports> 
</typeSystemDescription> 
</analysisEngineMetaData> 
</analysisEngineDescription> 


下 面 的 代码 表示 现 有 的 STT 引擎 如 何 被 封装 ， 以 创建 分 析 引 擎 ， 处 理由 URL 定义 的 
音频 。 并 注释 音频 视图 (其 中 每 个 解码 的 单词 都 有 AudioToken), 参见 16.4.1 $5. 


package org.gale.gus; 


import java.io.BufferedInputStream; 

import java.util.ArrayList; 

import org.apache.uima.UimaContext; 

import org.apache.uima.analysis component.JCasAnnotator ImplBase; 
import org.apache.uima.analysis engine.AnalysisEngineProcessException; 
import org.apache.uima.cas.CASException; 

import org.apache.uima.jcas.JCas; 

import org.apache.uima.resource.ResourceInitializationException; 
import org.apache.uima.util.Level; 

import org.apache.uima.util.Logger; 


import org.gale.AudioToken; 
import org.gale.SU; 


/** 
* Demo STT annotator 
* / 


public class DemoSTT extends JCasAnnotator, ImplBase { 


private Logger logger; 
private String compId; 


public void initialize(UimaContext aContext) throws 
ResourceInitializationException { 


super.initialize(aContext); 
logger = aContext.getLogger(); 
compId = (String) aContext.getConfigParameterValue("ComponentId"); 


} 


public void process(JCas jcas) throws AnalysisEngineProcessException f 


try i 

jcas = jcas.getView("Audio"); 
) catch (CASException e) { 

throw new AnalysisEngineProcessException(e) ; 
} 
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logger.log(Level.INFO, compId + ": Processing audio URL '" 
* jcas.getSofaDataURI() * "'"); 


String audioMimeType - jcas.getSofaMimeType(); 
BufferedInputStream audioStream - new 
BufferedInputStream(jcas.getSofaDataStream()); 


// Run a pretend STT that puts its results in two arrays 
ArrayList<String> words = new ArrayList<String>(100); 
ArrayList<Float> endTimes = new ArrayList<Float>(100) ; 
runSTT(audioStream, audioMimeType, words, endTimes); 


// Get the STT results and add AudioTokens to CAS 
float time = 0; 
for (int i = 0; i < words.size(); ++i) { 544 


AudioToken atok = new AudioToken(jcas) ; 
atok.setSpelling(words.get(i)); 
atok.setBegin(time) ; 

time = endTimes.get(i); 
atok.setEnd(time) ; 
atok.setComponentlid(compId); 
atok.addToIndexes(); 


// Add one SU spanning all of the audio 
SU su = new SU(jcas); 

su.setBegin(0); 

su.setEnd(time); 
su.setComponentId(compId); 
su.addToIndexes(); 


// Demo code pretending to perform STT 


private void runSTT(BufferedInputStream in, String mimeType, 
ArrayList<String> words, ArrayList<Float> endTimes) { 
logger .log(Level.INFO, 
"runSTT: pretending to process audio ... creating 2 fake words") ; 
words.add("hello") ; 
endTimes.add(0.65f); 
words .add("world") ; 
endTimes.add(1.35f); 


} 
其 描述 文件 包含 用 于 确定 CAS 中 条 目 创建 者 的 参数 。 


<?xml version="1.0" encoding="UTF-8"?> 

«analysisEngineDescription 
xmlns-"http://uima.apache.org/resourceSpecifier"» 
<frameworkImplementation>org.apache.uima. java 
</frameworkImplementation> 
<primitive>true</primitive> 
<annotatorImplementationName>org.gale.gus.DemoSTT 
</annotatorImplementationName> 
<analysisEngineMetaData> 


<configurationParameters> 
<configurationParameter> 


<name>Component Id</name> 
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<description>Name of STT engine</description> 
<type>String</type> 
<mandatory>true</mandatory> 
949 </configurationParameter> 
</configurationParameters> 
<configurationParameterSettings> 
<nameValuePair> 
<name>Component Id</name> 
<value> 
<string>STTx</string> 
</value> 
</nameValuePair> 
</configurationParameterSettings> 
<typeSystemDescription> 
<imports> 
<import name="GaleSpeechTypes"/> 
</imports> 
</typeSystemDescription> 
</analysisEngineMetaData> 
</analysisEngineDescription> 


下 面 的 XML 描述 代码 例子 中 用 到 的 GTS 2839, Apache UIMA 的 SDK 包含 Eclipse 
插件 ， 可 方便 创建 并 开发 分 析 引 擎 以 及 类 型 系统 描述 器 。 


<typeDescription> 
<name>org.gale.WordToken</name> r 
«description»A basic unanalyzed word 
«/description» 
«supertypeName»org.gale.NonWhiteSpaceToken«/supertypeName» 


</typeDescription> 


<typeDescription> 
<name>org.gale.NonWhiteSpaceToken</name> 
<description>A span of characters that meet the Unicode 
definition of non-whitespace. 
</description> 
<supertypeName>org. gale. Token</supertypeName> 


</typeDescription> 


<typeDescription> 
<name>org.gale.Token</name> 
<description>Tokenizer output - these should be 
non-overlapping. Frequently the set of Tokens 
will cover the entire document, but this is not 
required. The type hierarchy derived from Token 
is used purely for constructing specific iterators, 


not for data inheritance. 
</description> 


<supertypeName>uima.tcas.Annotation</supertypeName> 
</typeDescription> 
<typeDescription> 
<namé>org. gale. AudioToken</name> 
546 <description>Word-like units</description> 
<supertypeName>org.gale.AudioSpan</supertypeName> 
<features> 


<featureDescription> 
<name>spelling</name> 
<description>Spelling of the word; typically does not 
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include capitalization, optional diacritics, or 
punctuation</description> 
<rangeTypeName>uima. cas .String</rangeTypeName> 
</featureDescription> 
<featureDescription> 
<name>confidence</name> | | 
<description>Value representing the "score" of this AudioToken, such 
as the probability that the span actually contains the annotated 
word spoken within. 


«/description» 
<rangeTypeName>uima.cas.Float</rangeTypeName> 
</featureDescription> 
</features> 
</typeDescription> 


<typeDescription> 
<name>org.gale.SU</name> 
<description>Sentence-like units. An SU spans one or more AudioTokens.</description> 
<supertypeName>org.gale.AudioSpan</supert ypeName> 

</typeDescription> 


<typeDescription> 
<name>org.gale.AudioSpan</name> 
<description>The basic unit of a time duration (similar to an Annotation). This is 
a base class that should not be instantiated.</description> 
<supertypeName>uima.cas.TOP</supertypeName> 
<features> 
<featureDescription> 
<name>begin</name> 
<description>Begin time in seconds from the beginning of the segment</description> 
<rangeTypeName>uima.cas.Float</rangeTypeName> 
</featureDescription> 
<featureDescription> 
<name>end</name> 
<description>End time in seconds from the beginning of the segment</description> 
<rangeTypeName>uima.cas.Float</rangeTypeName> 
</featureDescription> 
<featureDescription> 
<name>component Id</name> 
<description>ID of the STT component that created this annotation</description> 
<rangeTypeName>uima.cas.String</rangeTypeName> 
</featureDescription> 
</features> 
</typeDescription> 947 
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索引 中 的 页 码 为 英文 原 书 页 码 ， 与 书 中 边栏 标注 的 页 码 一 致 。 


(period), sentence segmentation markers (/8] E, 
句子 分 割 标 记 ) 30 
(Quotation marks), sentence segmentation 
markers (引号 ， 句 子 分 割 标记 )，30 
| (Exclamation point), as sentence segmentation 
markers (感叹 号 ， 句 子 分 割 标记 )，30 
? (Question mark), sentence segmentation mark- 
ers 〈 问 号 ， 句 子 分 割 标记 )，30 
80/20 rule (vital few) (80/20 法 则 ， 能 者 多 劳 )，14 


4 o 


a priori models, in document retrieval ( 先 验 模型 ， 
文档 检索 ) 377 
Abbreviations, punctuation marks in (简写 中 的 标 
点 符号 ) 30 
Absity parser, rule-based semantic parsing (Absity 
分 析 器 ， 基 于 规则 的 语义 分 析 ) 122 
Abstracts (摘要 ) : 
in automatic summarization (自动 文摘 ),， 397 
defined (ŒX), 400 
Accumulative vector space model, for document re- 
trieval (累计 型 问 量 空 间 模 型 ， 用 于 文档 检 
40. 374-375 
Accuracy, in QA (准确 率 ，QA)，462 
ACE (自动 内 容 抽 取 ), 参见 Automatic content ex- 
traction (ACE) 
Acquis corpus (Acquis 语料库 ) 
for evaluating IR systems (用 于 信息 检索 系统 评 
价 )，390 
for machine translation 〈 用 于 机 器 翻译 )，358 
Adequacy, of translation (忠实 度 ， 翻 译 )，334 
Adjunctive arguments, PropBank verb predicates 
( 辅 变 元 ，ProBank 动词 谓词 )，119-120 
AER (Alignment-error rate) (对 齐 错 误 率 )，343 
AEs (Analysis engines), UIMA (4>#75|%, UI- 
MA), 527 
Agglutinative languages (444 iB) 


finite-state technology applied to (应 用 有 限 状 态 
技术 )，18 
linear decomposition of words ( 词 的 线性 分 
fit). 192 
morphological typology and (词法 类 型 学 )，7 
parsing issues related to morphology (词法 学 相关 
的 分 析 问 题 ) ，90-91 
Aggregate processor, combining NLP engines ( # 
合 处 理 器 ， 融 合 NLP 引擎 )，523 
Aggregation architectures, for NLP (聚合 架构 ， 
用 于 NLP)， 参 见 Natural language processing 
(NLP), combining engines for 
GATE, 529-530 
InfoSphere Streams (InfoSphere jj). 530-531 
overview of 〈 概 述 ) 527 
UIMA, 527-529 
Aggregation models, for MLIR (RAW, HF 
MLIR), 385 
Agreement features, of coreference models (— $& fi 
征 ， 共 指 模型 ) 301 
Air Travel Information System (ATIS) ( 空 旅 信息 
系统 ) 
as resource for meaning representation 《作为 意义 
表示 资源 ) ,148 
rule-based systems for semantic parsing (基于 规 
则 的 语义 分 析 系 统 )，150 
supervised systems for semantic parsing (有 监督 
的 语义 分 析 系 统 ) 150-151 
Algorithms (iE). ， 人 参见 各 种 类 型 
Alignment-error rate ( AER) (对 齐 错误 率 ) » 343 
Alignment, in RTE (X{7F. RTE) 
implementing (3:34), 233-236 
latent alignment inference (1É TE XJ FF HE M), 
247-248 
learning alignment independently of entailment 


(独立 于 蕴涵 学 习 对 齐 ) 244-245 
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leveraging multiple alignments (利用 多 对 齐 )， 
245 
modeling (Œ$), 226 
Allpmorphs (48 (Kil ®), 6 
“almost-parsing” language model (“ 近 似 句 法 分 析 ” 
语言 模型 )，181 
Ambiguity (歧义 ) 
disambiguation problem in morphology (形态 消 歧 
[a] BR) , 91 
in interpretation of expressions (K i5 5X ft FE), 
10-13 
issues with morphology induction (形态 归纳 问 
B). 21 
PCFGs and, 80-83 
resolution in parsing (句法 分 析 中 的 歧义 消解 )，80 
sentence segmentation markers and (句子 分 割 标 
id), 30 
structural (454), 99 
in syntactic analysis 《语法 分 析 中 )，61 
types of (类 型 ) 8 
word sense and (词义 ),， 参见 Disambiguation 
systems, word sense 
Analysis engines (AEs), UIMA (4 9r 5| €, UL- 
MA), 527 
Analysis, in RTE framework (分 析 ，RTE 框架 ) 
annotators (b&ikES$8), 219 
improving (ACHE), 248-249 
multiview representation of (多 视图 表示 ) 220-222 
overview of (概述 ) 220 | 
Analysis stage, of summarization system (分 析 阶 
段 ， 文 摘 系统 ) 
building a summarization system and (建造 文摘 
系统 )，421 
overview of (概述 ) ，400 
Anaphora resolution ( 指 代 消解 )， 参 见 Corefer- 
ence resolution 
automatic summarization and ( Ej zjj 3c HH). 398 
cohesion of (fff BE) , 401 
multilingual automatic summarization and ( & i& 
自动 文摘 )，410 
QA architectures and (QA 4274), 438-439 
zero anaphora resolution (4F38 fV fO , 249, 444 
Anchored speech recognition (44 &i& zr iil). 490 
Anchors, in SSTK (4X. SSTK), 246 
Annotation/annotation guidelines (标注 /标注 指南 ) 
entity detection and (实体 检测 )，293 
in GALE, 478 


Penn Treebank and (Œ JN |y FED. 87-88 

phrase structure trees and (短语 结构 树 ) 68-69 

QA architectures and (QA ZRfj), 439-440 

in.RTE, 219, 222-224 

snippet processing and (Jr Et Ab IE), 485 

for treebanks (FA FÆ), 62 

of utterances based in rule-based grammars (基于 
规则 文法 的 语句 )，502-503 

of utterances in spoken dialog systems (口语 对 话 
系统 的 语句 )，513 

Answers, in QA (#8, QA) 

candidate answer extraction 《候选 答案 抽取 )， 参 
风 Candidate answer extraction, in QA 

candidate answer generation (候选 答案 生成 )， 
参见 Candidate answer generation, in QA 

evaluating correctness of (评估 正确 性 ), 461-462 

scores for (分 值 ), 450-453, 458-459 

scoring component for (PE 4TH fF). 435 

type classification of (类 型 分 类 ) , 440-442 

Arabic (阿拉 伯 语 ) 

ambiguity in (Ex X ), 11-12 

corpora for relation extraction (关系 抽取 语 料 
BE), 317 

distillation (提炼 ), 479, 490-491 

EDT and, 286 

ElixirFM lexicon CElixirFM 15] #2), 20 

encoding and script (编码 和 字体 )，368 

English-to- Arabic machine translation ( 3& [a BL $& 
Mie), 114 | 

as fusional language (作为 屈折 语 )，8 

GALE IOD and, 532, 534-536 

IR and (信息 检索 )，371 

irregularity in( 不 规则 性 )，8-9 

language modeling (语言 建 模 ), 189-191, 193 

mention detection experiments ( 提 及 检测 实验 )， 
294-196 

morphemes in (词素 ), 6 

morphological analysis of (形态 分 析 ), 191 

multilingual issues in predicate-argument struc- 
tures (谓词 - 论 元 结构 的 多 语 问 题 ), 146-147 

polarity analysis of words and phrases( 词 和 短语 
的 极 性 分 析 ), 269 9 

productivity/creativity in (能 产 性 /创造 性 ), 15 

regional dialects not in written form ( 非 书 写 形式 
的 方言 )，195 

RTE in, 218 


stem-matching features for capturing morphological 
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similarities (捕捉 形态 相似 度 的 词 干 匹配 特 
fE), 301 
TALES case study (TALES 案例 研究 )，538 
tokens in ( 词 元 )，4 
translingual summarization ( 跨 语 际 文摘 )，398- 
399, 424-426 
unification-based models (基于 合 一 的 模型 )，19 
Architectures (架构 ) 
aggregation architectures for NLP (NLP X Zr 4 
M, 527-529 
for question answering (QA) (用 于 问答 系统 )， 
435-437 
of spoken dialog systems (口语 对 话 系 统 )，505 
system architectures for distillation (用 于 提炼 的 
系统 架构 ) 488 
system architectures for sematic parsing (用 于 语 
义 分 析 的 系统 架构 )，101-102 
types of EDT architectures (EDT 架构 类 型 )， 
286-287 
Arguments (JE) 
consistency of argument identification ( 论 元 识别 
二 致 性 ), 323 - 
event extraction and (事件 抽取 )，321-322 
in GALE distillation initiative (GALE 提炼 计 
Xl), 475 
in RTE systems (RTE t), 220 
Arguments, predicate-argument recognition (i£ JE. 
谓词 - 论 元 识别 ) 
argument sequence information 〈 论 元 序列 信息 )， 
137-138 
classification and identification (分 类 和 识别 )， 
139-140 
core and adjunctive (核心 论 元 和 附加 论 元 )，119 
disallowing overlaps CA fo VE, 137 
discontiguous( 非 连续 ), 121 
identification and classification (识别 和 分 类 ), 123 
noun arguments (名 词 论 元 )，144-146 
ART (artifact) relation class (人 造物 关系 类 ), 312 
ASCH 
as encoding scheme (作为 编码 方式 )，368 
parsing issues related (相关 句法 分 析 问 题 )，89 
Asian Federation of Natural Language Processing 
(亚洲 自然 语言 处 理 联盟 ),，218 
Asian languages (亚洲 语言 )， 参 见 各 个 亚洲 语言 
multilingual IR and (£ ER BRR), 366; 390 
QA and (MWERA), 434, 437, 455, 460- 
46l, 466 


Ask. com, 435 
ASR (automatic speech recognition) (自动 语音 识别 ) 
sentence boundary annotation (4j F W F #R 
Œ), 29 
sentence segmentation markers (句子 分 割 标 
W2, 31 
ASSERT ( Automatic Statistical SEmantic Role 
Tagger) (AIRE N ff EERE HE). 147, 
447 
ATIS, ÆW Air Travel Information System (ATIS) 
Atomic events, summarization and (原子 事件 ， 文 
fi), 418 
Attribute features, in coreference models (属性 特 
征 ， 共 指 模型 )，301 
Automatic content extraction (ACE) (自动 内 容 抽取 ) 
coreference resolution experiments ( 共 指 消解 实 
验 )，302-303 
event extraction and (3E f/F- fijo , 320-321 
mention detection and (E f», 287, 294 
relation extraction and (关系 抽取 ), 311-312 
in Rosetta Consortium distillation system (Rosetta 
协会 提炼 系统 )，480-481 
Automatic speech recognition (ASR) (自动 语音 识别 ) 
sentence boundary annotation〈 人 句子 边界 标注 )，29 
sentence segmentation markers (句子 分 割 标记 )，31 
Automatic Statistical SEmantic Role Tagger ( AS- 
SERT) 《自动 统计 语义 角色 标注 器 )，147，447 
Automatic summarization ( Á zl] HH) 
bibliography (参考 文献 ), 427-432 
coherence and cohesion in (连贯 和 衔接 ), 401-404 
extraction and modification processes in (抽取 和 
修改 过 程 )，399-400 
graph-based approaches (基于 图 的 方法 ) 401 
history of (Jj #), 398-399 
introduction to (4¢ ZH) , 397-398 
learning how to summarize (^£ 27 il fn] fi dj 95D , 
406-409 
LexPageRank, 406 
multilingual (多 语 ) 参见 Multilingual automatic 
summarization 
stages of (阶段 ) 400 
summary (摘要 ) 426-427 
surface-based features used in (使 用 的 表层 特 
征 )，400-401 
TextRank, 404-406 
Automatic Summary Evaluation based on n-gram 


graphs (AutoSummENG) (基于 元 组 图 的 自 
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动 文摘 评估 ),， 419-420 


Babel Fish (E 5i| 4) 
crosslingual question answering and (# if zi [aj 
EE), 455 
Systran, 331 
Backend services, of spoken dialog system (后 端 服 
35. 口语 对 话 系统 )，500 
Backoff smoothing techniques ( 回 退 平滑 技术 ) 
generalized backoff strategy (广义 回 退 策略 )， 
183-184 
in language model estimation (语言 模型 估计 )， 
172 
nonnormalized form (JEJE HR), 175 
parallel backoff (3-17 [gd] 3B ) , 184 
Backus-Naur form, of context-free grammar ( Back- 
us-Naur work, E F MICHIE), 59 
BananaSplit, IR preprocessing and ( BananaSplit, 
信息 检索 预 处 理 )，392 
Base phrase chunks (基本 短语 块 )，132-133 
BASEBALL system, in history of QA systems 
(BASEBALL 系统 ， 问 答 系 统 历史 )，434 
Basic Elements (BE) (基本 单元 ) 
automatic evaluation of summarization (文摘 自动 
评价 )，417-419 
metrics in (指标 )，420 
Bayes rule, for sentence or topic segmentation ( JI I! 
斯 法 则 ， 用 于 句子 或 主题 分 割 )，39-40 
Bayesian theorem, maximum-likelihood estimation 
and( 贝 叶 斯 定理 ， 最 大 似 然 估 计 )，376 
Bayesian parameter estimation ( Dl 叶 斯 参数 估计 )， 
173-174 
Bayesian topic-based language models (基于 主题 的 
贝 叶 斯 语言 模型 )，186-187 
BBN, event extraction and (BBN， 事 件 抽取 )，322 
BE (Basic Elements) (基本 单元 ) 
automatic evaluation of summarization (文摘 自动 
评价 )，417-419 
metrics in (指标 ), 420 
BE with Transformation for Evaluation (BEwTE) 
(BE 评价 变换 ), 419-420 
Beam search〈 柱 搜索 ) 
machine translation and (机 器 翻译 ) 346 
reducing search space using (用 于 减少 搜索 空 
间 )，290-291 
Bell tree, for coreference resolution (Bell 树 ， 用 于 


共 指 消解 )，297-298 


Bengali (孟加拉 语 )， 参 见 Indian languages 
Berkeley word aligner，in machine translation 
(Berkeley 词 对 齐 工 具 ， 机 器 翻译 )，357 
Bibliographic summaries, in automatic summariza- 
tion (参考 文献 摘要 ， 自 动 文摘 )，397 
Bilingual latent semantic analysis (bLSA) (双语 潜 
在 语义 分 析 ) 197-198 
Binary classifier, in event matching 【二 元 分 类 器 ， 
事件 匹配 )，323-324 
Binary conditional model, for probability of mention 
links (二 元 条 件 模 型 ， 用 于 提 及 链接 概率 )， 
297-300 
BLEU 
machine translation metrics (机 器 翻译 度量 指 
标 )，334，336 
mention detection experiments and (4i A fs W SE 
验 ) 295 
ROUGE compared with (与 ROUGE 比较 )， 
415-416 
Block comparison method, for topic segmentation 
〈( 块 比较 方法 ， 用 于 主题 分 割 ) 38 
bLSA (bilingual latent semantic analysis) (双语 潜 
在 语义 分 析 ) 197-198 
BLUE (Boeing Language Understanding Engine) 
(波音 语言 理解 引擎 ) 242-244 
BM25 model, in document retrieval (BM25 模型 ， 
文档 检索 )，375 
BNC (British National Corpus) (英国 国家 语 料 
Æ), 118 
Boeing Language Understanding Engine ( BLUE) 
(波音 语言 理解 引擎 )，242-244 
Boolean models (布尔 模型 ) 
for document representation in monolingual IR 
(用 于 单 语 IR 文档 表示 ) 372 
for document retrieval (用 于 文档 检索 )，374 
Boolean named entity flags，in PSG (布尔 命名 实体 
init, PSG), 126 
Bootstrapping (#77, RAM) 
building subjective lexicon (构建 主观 性 词典 )， 
266-267 
corpus-based approach to subjectivity and senti- 
ment analysis (基于 语料库 的 主观 性 和 情感 分 
析 方 法 )，269 
dictionary-based approach to subjectivity and sen- 
timent analysis (基于 字典 的 主观 性 和 情感 分 析 
H), 273 


ranking approaches to subjectivity and sentiment 


analysis (对 主观 性 和 情感 分 析 方 法 进行 排 
名 ), 275-276 

semisupervised approach to relation extraction ( 半 
监督 关系 抽取 方法 )，318 

Boundary classification problems (边界 分 类 问题 ) 

overview of (概述 ) 33 

sentence boundaries (和 铝 子 边界 )， 参 见 Sentence 
boundary detection 

topic boundaries (主题 边界 )， 参 见 Topic seg- 


mentation 
British National Corpus (BNC) (英国 国家 语料库 )， 
118 


Brown Corpus, as resource for semantic parsing 
(Brown 语料库 ， 作 为 语义 分 析 资 源 )，104 
Buckwalter Morphological Analyzer (Buckwalter JÉ 

AS St OTE)» 191 


C-ASSERT, software program for semantic role la- 
beling (C-ASSERT, 语义 角色 标注 软件 )，147 
Call-flow (呼叫 流程 ) 
localization of (本 地 化 )，514 
strategy of dialog manager (对 话 管理 器 策略 )， 
504 
voice user interface (VUI) and (语音 用 户 界 
面 )，505-506 
Call routing, natural language and (呼叫 路 由 选择 ， 
自然 语言 )，510 
Canadian Hansards (加 拿 大 议会 语料库 ) 
corpora for IR (信息 检索 语料库 ) 391 
corpora for machine translation (机 器 翻译 语 料 
FE), 358 
Candidate answer extraction, in QA (候选 答案 抽 
W, QA) 
answer scores ( [8] TE 43) , 450-453 
combining evidence (合并 证 据 ), 453-454 
structural matching (结构 匹配 )，446-448 
from structured sources (i H Gita we), 449-450 
surface patterns (表层 模式 ) 448-449 
type-based (基于 类 型 的 ) 446 
from unstructured sources ( 源 自 非 结 构 源 )，445 
Candidate answer generation, in QA (候选 答案 生 
W. QA) 
components in QA architectures (QA 体系 结构 组 
件 ) 435 
overview of (概述 )，443 
Candidate boundaries. processing stages of segmen- 


tation tasks (候选 边界 ， 切 分 任务 处 理 阶 


de 7] 405 


ER). 48 
Canonization, deferred in RTE multiview represen- 
tation (规范 化 ， 在 RTE 多 视图 表示 中 延 
J), 222 
Capitalization ( Uppercase), sentence segmentation 
markers (大 写 化 (大 写 )， 句 子 分 割 标 记 )，30 
CAS (Common analysis structure), UIMA (通用 分 
Hi, UIMA), 527, 536 
Cascading systems, type of EDT architectures (级 联 
RG. EDT 系统 结构 类 型 )，286-287 
Case (大 小 写 ) 
parsing issues related to (AJ 4) #7 4H X [n] MB), 88 
sentence segmentation markers ( n] F 4k # fg 
id), 30 
Catalan (WF 9 Jg BiB). 109 
Categorical ambiguity, word sense and (#26 X. 
词义 ), 104 
Cause-and-effect relations, causal reasoning and ( 因 
果 关 系 ， 因 果 推 理 )，250 
CCG (Combinatory Categorical Grammar) (组 合 范 
畴 语法 )，129-130 
CFGs, 参见 Context-free grammar 
Character n-gram models (字符 n 元 模型 )，370 
Chart decoding, tree-based models for “machine 
translation ( 线 图 解码 ， 基 于 树 的 机 器 翻译 模 
HY), 351-352 
Chart parsing, worst-case parsing algorithm for 
CFGs ( 线 图 分 析 ，CFG 最 坏 情 形 分 析 算 法 )， 
74-79 
Charts, IXIR distillation system (图 表 ，IXIR 提炼 
系统 ) ，488-489 
CHILL (Constructive Heuristics Induction for Lan- 
guage Learning) (语言 学 习 的 建构 性 启发 式 归 
Zi. 151 
Chinese (汉语 ) 
anaphora frequency in( 回 指 频 率 ), 444 
challenges of sentence and topic segmentation ( 4] 
子 和 主题 分 割 挑战 ), 30 
corpora for relation extraction (关系 抽取 语 料 
BE»). 317 
corpus-based approach to subjectivity and senti- 
ment analysis (基于 语料库 的 主观 性 和 情感 分 
析 方 法 ) 274-275 
crosslingual language modeling (路 语言 语言 建 
BER), 197-198 
data sets related to summarization (文摘 相关 数据 
#2), 424-426 
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dictionary-based approach to subjectivity and sen- 
timent analysis (基于 字典 的 主观 性 和 情感 分 析 
方法 ) 272-273 
distillation ($24), 479, 490-491 
EDT and, 286 
Hownet lexicon for (41 P is] Jt.) , 105 
human assessment of word meaning (词义 人 类 评 
fi), 333 
IR and, 366, 390 
isolating (analytic) languages (孤立 (分 析 ) 
W), 7 
as isolating or analytic language (作为 孤立 语 或 分 
析 语 ), 7 
language modeling in without word segmentation 
(不 分 词 的 语言 建 模 ), 193-194 
lingPipe for word segmentation (lingPipe 分 
词 ) 423 
machine translation and (机 器 翻译 )，322， 
354，358 
mention dection experiments (f A f$ W Sz I), 
294-296 
multilingual issues in predicate-argument struc- 
tures (谓词 - 论 元 结构 的 多 语 问题 ),，146-147 
phrase structure treebank (短语 结构 树 库 ), 70 
polarity analysis of words and phrases ( 词 和 短语 
的 极 性 分 析 )，269 
preprocessing best practices in IR CIR 中 的 预 处 理 
REKER), 372 
QA and, 461, 464 
QA architectures and (QA (KARA), 437-438 
resources for semantic parsing (i& X 4 Pr vt 
W), 122 
RTE in, 218 
scripts not using whitespace (不 用 空格 的 书写 方 
式 )，369 
subjectivity and sentiment analysis (主观 性 和 情 
感 分 析 )，259-260 
TALES case study (TALES 案例 研究 ) 538 
translingual summarization ( B iB br Xx fi). 
399, 410 
word segmentation and parsing (分 词 和 句法 分 
析 )，89-90 
word segmentation in (分 词 ), 4-5 
word sense annotation in (词义 标注 ) 104 
Chomsky, Noam 〔 乔 姆 斯 基 ， 诺 姆 ),， 13, 98-99 
Chunk-based systems (基于 块 的 系统 ), 132-133 
Chunks( 块 ) 


defined (Æ X), 292 
meaning chunks in semantic parsing (i X. 4r fr 83 
E LER), 97 
CIDR algorithm, for multilingual summarization 
(CIDR 算法 ， 用 于 多 语文 摘 )，411 
Citations (5| FA) 
evaluation in distillation (4 PE fr), 493 
in GALE distillation initiative (GALE 提炼 计划 ) , 
477 
CKY algorithm, worst-case parsing for CFGs (CK Y 
算法 ，CFG 的 最 坏 情 形 分 析 ) 76-78 
Class-based language models (基于 类 的 语言 模型 ) ， 
178-179 
Classes (28) 
language modeling using morphological categories 
(用 形态 类 别 的 语言 建 模 )，193 
of relations (关系 ),，311 
Classification (分 类 ) 
of arguments( 论 元 )，123, 139-140 
data-driven (数据 驱动 )，287-289 
dynamic class context in PSG (PSG 中 的 动态 类 上 
FX), 128 
event extraction and (3E fF #h HW), 321-322 
overcoming independence assumption (克服 独立 
HRE), 137-138 
paradigms (35 53X) , 133-137 
problems related to sentence boundaries (句子 边 
FFA SE [a] BHA), BR Sentence boundary detec- 
tion 
problems related to topic boundaries (主题 边界 
相关 问题 ) 参见 Topic segmentation 
relation extraction and (3 AFAR), 312-316 
Classification tag lattice (trellis), searching for 
mentions (AmE R), MRR), 289 
Classifiers (4>28 88) 
in event matching ($F PE fig), 323-324 
localization of grammars (文法 本 地 化 )，516 
maximum entropy classifiers (Ji K Mi 21 25$ $8), 
37, 39-40 
in mention detection (Æ f il). 292-293 
pipeline of (流水 线 )，321 
in relation extraction (K APM), 313, 316-317 
in subjectivity and sentiment analysis (主观 性 和 
情感 分 析 ) 270-272, 274 
Type classifier in QA systems (QA 系统 的 类 型 分 
类 器 )，440-442 
in word disambiguation (词义 消 歧 )，110 


CLASSIFY functions (CLASSIFY Pg), 313 
ClearTK tool, for building summarization system 
(ClearTK 工具 ， 用 于 建立 文摘 系统 )，423 

CLIR， 参 见 Crosslingual information retrieval 
Clitics (附着 词 ) 
Czech example (捷克 语 例 子 ),，5 
defined (ŒX), 4 
Co-occurence, of words between languages ( 共 现 ， 
语言 间 词 ) 337-338 
Coarse to fine parsing ( 先 粗 后 细 分 析 ) 77-78 
Code switchers (编码 切换 ) 
impact on sentence segmentation (对 甸子 分 割 的 
影响 )，31 
multilingual language modeling and (多 语言 建 
FR. 195-196 
COGEX, for answers in QA (COGEX, HIT QA 中 
回答 评分 ), 451 
Coherence, sentence-sentence connections and( 连 
贯 ， 句 间 联 系 )，402 
Cohesion, anaphora resolution and (衔接 ， 指 代 消 
解 )，401-402 
Collection language, in CLIR (文档 和 集 语言 ， 
CLIR), 365 
Combination hypothesis, combining classifiers to 
boost performance (合并 假设 ,合并 分 类 器 以 
增强 性 能 ),， 293 
Combinatory Categorical Grammar (CCG) (组 合 范 
畴 语法 ) 129-130 
Common analysis structure (CAS), UIMA (通用 
4r tr Git). UIMA), 527, 536 
Communicator program, for meaning representation 
(Communicator 程序 ， 用 于 意义 表示 )，148-150 
Comparators, RTE (比较 器 ，RTE) 219, 222-223 
Competence vs. performance, Chomsky on (7f 2 3jr 
基 论 语言 能 力 和 运用 )，13 
Compile/replace transducer ( Beesley and Kart- 
tunen) (编译 /替换 转录 机 ，Beesley 和 Kart- 
tunen), 17 
Componentization of design, for NLP aggregation 
(设计 组 件 化 ，NLP #4), 524-525 
Components of words Cis] AUB) 
lexemes (GH). 5 
morphemes (词素 ， 形 素 ) 5-7 
morphological typology and (形态 类 型 学 ),，7-8 
Compound slitting (复合 词 分 割 ) 
BananaSplit tool (BananaSplit 工具 ) ，392 
normalization for fusional languages JH Jri& MIE 
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f, 371 
Computational efficiency (计算 效率 ) 
desired attibutes of NLP Aggregation (NLP 聚合 
的 期 望 性 质 ) 525-526 
in GALE IOD, 537 
in GATE, 530 
in InfoStream Streams (InfoStream ği), 530-531 
in UIMA, 528 
Computational Natural Language Learning ( CoN- 
LL) (计算 自然 语言 学 习 ), 132 
Concatenative languages (连接 型 语言 ), 8 
Concept space, interlingual document representa- 
tions (概念 空间 ， 中 间 语 言 文 档 表 示 )，381 
Conceptual density, as measure of semantic similari- 
ty (概念 密度 ,语义 相似 度 度量 ), 112 
Conditional probability，MaxEnt formula for (条 件 
概率 ，MaxEnt 公式 )，316 
Conditional random fields (CRF) (条 件 随机 场 ) 
in discriminative parsing model (区 分 性 分 析 模 
HY), 84 
machine learning and (机 器 学 习 )，342 
measuring token frequency (计算 词 元 频率 )，369 
mention detection and ( 提 及 检测 )，287 
relation extraction and (关系 抽取 ), 316 
sentence or topic segmentation and (句子 或 主题 
4r 30) , 39-40 
Confidence weighted score (CWS), in QA (置信 度 
BUB. QA), 463 
CoNLL (Computational Natural Language Learn- 
ing) (计算 自然 语言 学 习 ), 132 
Constituents (成 分 ) | 
atomic events and (原子 事件 ) 418 
in PSG 127 
Constituents, in RTE (RTE 中 的 成 分 ) 
comparing annotation constituents (比较 标记 成 
4r) , 222-224 
multiview representation of analysis and (分 析 的 
多 视图 表示 )，220 
numerical quantities (NUM) ORO, 221, 233 
Constraint-based language models (基于 约束 的 语言 
模型 ), 177 
Contructive Heuristics Induction for Language 
Learning (CHILL) (语言 学 习 的 建构 性 启发 式 
归纳 ), 151 
Content Analysis Toolkit (Tika), for preprocessing 
IR documents (内容 分 析 工 具 包 Tika， 用 于 IR 
文档 预 处 理 )，392 
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Content word. in PSG (Xtig]. PSG), 125-126 
Context, as measure of semantic similarity ( F X., 
语义 相似 性 度量 )，112 
Context-dependent process, in GALE IOD (GALE 
IOD 上 下 文 相关 过 程 )，536-533 
Context features. of Rosetta Consortium distillation 
system ( E F X 4E, Rosetta 协会 提炼 系 
Ht). 486 
Context-free grammar (CFG) ( E F X Go XC) 
for analysis of natural language syntax (用 于 自然 
语言 句法 分 析 )，60-61 
dependency graphs in syntax analysis 《句法 分 析 
依存 图 )，65-67 
rules of syntax (人 句法 规则 )，59 
shift-reduce parsing CER E JH £3 7r DTO ，72-73 
worst-case parsing algorithm (最 坏 情 形 分 析 算 
法 ) ，74-78 
Contextual subjectivity analysis (上 上 下文 主观 性 分 
tr), 261 
Contradiction, in textual entailment (FG, MAB 
WA). 211 
Conversational speech, sentence segmentation in (Xj 
话语 音 ， 句 子 分 割 ), 31 
Core arguments, PropBank verb predicates (核心 论 
元 ，PropBank 动词 谓词 )，119 
Coreference resolution ( 共 指 消解 )， 参 见 Anapho- 
ra resolution 
automatic summarization and (自动 文摘 )，398 
Bell tree for (Bell 树 ), 297-298 
experiments in (实验 )，302-303 
information extraction and (信息 抽取 )，100， 
285-286 
MaxEnt model applied to (应 用 MaxEnt 模型 )， 
300-301 
models for (模型 ). 298-300 
overviews of (概述 ) 295-296 
as relation extraction system (作为 关系 抽取 系 
A). 311 
in RTE (RTE F), 212, 227 
Corpora (语料库 ) 
for distillation (用 于 提炼 )，480-483 
for document-level annotations (用 于 文档 级 标 
YE), 274 
Europarl (European Parliament) (K WW), 
295, 345 
for IR systems (用 于 IR KE), 390-391 
for machine translation (MT) (用 于 机 器 翻 


HE), 358 
for relation extraction (用 于 信息 抽取 ), 317 
for semantic parsing (用 于 语义 分 析 )，104-105 
for sentence-level annotation (用 于 句子 级 标注 )， 
271-272 
for subjectivity and sentiment analysis (用 于 主观 
性 和 情感 分 析 )，262-263, 274-275 
for summarization (用 于 文摘 ), 406, 425 
for word/phrase-level annotations (用 于 词 /短语 
级 标注 )，267-269 
Coverage rate criteria, in language model evaluation 
(覆盖 率 标准 ， 语 言 模 型 评价 ), 170 
Cranfield paradigm (Cranfield 范式 )，387 
Creativity/productivity, and the unknown word 
problem (创造 性 /能 产 性 ， 未 登录 词 问 题 )， 
13-15 
CRFs， 参 见 Conditional random fields (CRFs) 
Cross-Language Evaluation Forum (CLEF) (8&i& zi 
评测 论坛 ) 
applied to RTE to non-English language (应 用 于 
非 英语 语言 RTE)，218 
IR and, 377, 390 
QA and, 434, 454, 460-464 
Cross-language mention propagation (BiB zi £e A f£ 
$850,293, 295 
Cross-lingual projections (路 语言 投射 ) 275 
Crossdocument coreference (XDC), in Rosetta Con- 
sortium distillation system ( B 文档 共 指 ， 
Rosetta 协会 提炼 系统 )，482-483 
Crossducument structure theory Bank (CSTBank) 
( 跨 文 档 结构 理论 库 )，425 
Crossducument structure theory (CST) 〈( 跨 文档 结 
HIEI), 425 
Crosslingual distillation (路 语言 提炼 )，490-491 
Crosslingual information retrieval (CLIR) (#if 
信息 检索 ) 
best practices (最 佳 实践 )，382 
interlingual document representations (中 间 语 言 
文档 表示 )，381-382 
machine translation 〈 机 器 翻译 ) 380-381 
overview of (概述 )，365，378 
translation-based approaches (基于 翻译 的 方法 )， 
378-380 
Crosslingual language modeling ( 跨 语言 建 模 )，196- 
198 
Crosslingual question answering (# if & fal 4), 
454-455 


Crosslingual summarization (#if A FH). 398 
CST (Crossdocument structure theory) (Bx fh 25 
构 理 论 ) ，425 
CSTBank (Crossdocument Structure Theory Bank) 
( 跨 文 档 结构 理 论 库 ) ，425 
Cube pruning，decoding phrase-based models (立方 
剪 校 ， 基 于 短语 的 模型 的 解码 )，347-348 
CWS (Confidence weighted score), in QA (QA 中 
的 置信 和 度 权 值 )，463 
Cyrillic alphabet (西里 尔 字 母 表 )，371 
Czech (捷克 语 ) 
ambiguity in (歧义 ), 11-13 
dependency graphs in syntax analysis (句法 分 析 
IK TE FEL), 62-65 
dependency parsing in (依存 分 析 ),， 79 
finite-state models CE BRA HAY). 18 
as fusional language (fF 2g Ji Tia). 8 
language modeling GE zi ZEB, 193 
morphological richness of Of zs 3E S. 355 
negation indicated by inflection (曲折 变化 表示 否 
$E, 5 
parsing issues related to morphology (与 形态 学 相 
关 的 分 析 问 题 )，91 
productivity/creativity in 〈 能 产 性 /创造 性 )， 
14-15 
syntactic features used in sentence and topic seg- 
mentation (句子 和 主题 分 割 的 句法 特征 )，43 
unification-based models (基于 合 一 的 模型 )，19 


DASML (Dialog Act Markup in Several Layers ) 
(多 层 对 话 行为 标注 )，31 
Data-driven (数据 驱动 ) 
machine translation (机 器 翻译 ), 331 
mention detection ($2 J& zi). 287-289 
Data formats, challenges in NLP aggregation (数据 
格式 ，NLP 聚合 挑战 )，524 
Data-manipulation capabilities (数据 处 理 能 力 ) 
desired attributes of NLP aggregation (NLP RA 
的 期 望 性 质 ) , 526 
in GATE, 530 
in InfoSphere Streams (InfoSphere jt), 531 
in UIMA, 528-529 
Data reorganization, speech-to-text (STT) and (XX 
据 重组 织 ， 语 音 到 文本 )，535-536 
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building summarization systems (建立 文摘 系统 )， 
423 


distillation and (36 4&) , 485-486 
summarization and (文摘 ) 406 
Features CREÍfE) 
in mention detection system ( 提 及 检测 系统 )， 
291-294 
typed feature structures and unification (有 类 型 
的 特征 结构 与 合 一 )，18-19 
in word disambiguation system (F) X. 3 Jt Z& Z2 , 
110-112 
Features, in sentence or topic segmentation (特征 ， 
句子 或 主题 分 割 ) 
defined (Œ X.) , 33 
discourse features (iE f 41E), 44 
lexical features (词法 特征 ) , 42-43 
overview of 〈 概 述 ) 41-42 
predictions based on《〈 基 于 一 的 预测 ),，29 
prosodic features (韵律 特征 ) ，45-48 
speech-related features (语音 相关 的 特征 ), 45 
syntactic features (句法 特征 ), 43-44 
typographical and structural features (排版 和 结 
构 特 征 ) 44-45 
Fertility, word alignment and (繁衍 率 ， 词 对 齐 )， 
340 
File types, document syntax and (文件 类 型 ， 文 档 
名 法 )，367-368 
Finite-state morphology (4 BRIRASIB ASF). 16-18 
Finite-state transducers (4 PRK A KH RPL), 16- 
17, 20 
Finnish (芬兰 语 ) 
as agglutinative language (作为 黏着 型 语言 )，7 
IR and, 390-391 
irregular verbs (不 规则 动词 ), 10 
language modeling (语言 建 模 ),，189-191 
parsing issues related to morphology (与 形态 相关 
的 分 析 问 题 )，91 
summarization and (文摘 )，399 
FIRE (Forum for Information Retrieval Evaluation) 
(信息 检索 评测 论坛 )，390 
Flexible, distributed componentization (灵活 的 分 布 
式 组 件 化 》 
desired attributes of NLP aggregation (NLP 聚合 
的 期 望 属性 )7 524-525 
in GATE, 530 
in InfoSphere Streams (InfoSphere ifi). 530 
in UIMA, 528 | nim 
FLM, ÆJ, Factored language models (FLM). 
Fluency, of translation (翻译 的 流利 度 ) 334 
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Forum for Information Retrieval Evaluation ( FIRE) 
(信息 检索 评测 论坛 )，390 
FraCaS corpus, applying natural logic to RTE (Fra- 
CaS 语料库 ， 把 自然 逻辑 应 用 于 RTE), 246 
Frame elements (框架 元 素 ) 
in PSG (PSG 中 ), 126 
semantic frames in FrameNet (FrameNet 中 的 语 
义 框架 ), 118 
FrameNet 
limitation of (限制 )，122-123 
resources (资源 ) 122 
resources for predicate-argument recognition (用 
于 谓词 - 论 元 识别 的 资源 )，118-122 
Freebase，449 
French (法 语 ) 
automatic speech recognition (ASR) 
识别 )，179 
dictionary-based approach to subjectivity and sen- 
timent analysis (基于 字典 的 主观 性 和 情感 分 析 
方法 )，267 
human assessment of translation English to (把 英 
语 翻 译 成 法 语 的 人 工 评估 )，332-333 
IR and, 378, 390-391 
language modeling GE A Æ), 188 
localization of spoken dialog systems (口语 对 话 系 
统 的 本 地 化 )，513 
machine translation and (机 器 翻译 )，350，353- 
354，358 
phrase structure trees in syntax analysis (J iX 4} 
析 中 的 短语 结构 树 ) 62 
polarity analysis of words and phrases ( 词 和 短语 
的 极 性 分 析 ) ，269 
QA and, 454, 461 
RTE in, 217-218 
translingual summarization (Ei br X dij). 398 
word segmentation and (分 词 ) 90 
WordNet and, 109 
Functional morphology (HARES), 19-21 
Functions, viewing language relations as (把 语言 关 
RERO, 17 
Fusional languages (JH fj78 i& BD 
functional morphology models and (HARES 
模型 )，19 
morphological typology and (形态 类 型 学 ), 8 
normalization and (规范 化 )，371 
preprocessing best practices in IR (IR 中 的 预 处 理 
最 佳 实践 )，371 


(自动 语音 
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GALE, #4, Global Autonomous Language Exploi- 
tation (GALE) 
GALE Type System (GTS) (GALE 类 型 系统 )， 
534-535 
GATE, 参见 General Architecture for Text Engi- 
neering (GATE) 
Gazetteer, features of mention detection systems 
(地 名 词典 ， 提 及 检测 系统 的 特征 )，293 
GEN-AFF ( general-affiliation ), relation class 
(GEN-AFF， 一 般 关 系 ， 关 系 类 别 )，312 
Gender (f£) 
ambiguity resolution (ÏH bk), 13 
multilingual approaches to grammatical gender 
(语法 性 的 多 语 方 法 )，398 
General Architecture for Text Engineering (GATE) 
(文本 工程 通用 架构 ) 
attributes of (JR PE) , 530 
history of summarization systems (文摘 系统 历 
$), 399 
overview of (概述 ) 529-530 
summarization frameworks (3c dij fe 28) , 422 
General Inquirer, subjectivity and sentiment analysis 
lexicon Gili FA Æ i] #8, E W PE RUE A Pr a 
Ji», 262 
Generalized backoff strategy, in FLM (J^ X. ENE 9 
NE), 183-184 
Generative parsing models (生成 式 分 析 模 型 ) 83-84 
Generative sequence classification methods (生成 式 
序列 分 类 方法 ) 
complexity of (复杂 性 ) 40 
overview of (概述 ) 34 
performance of (fF BE), 41 
for sentence/topic boundary detection (用 于 句子 / 
主题 边界 检测 ) 34-36 
Geometric vector space model, for document retriev- 
al (几何 向 量 空间 模型 ， 用 于 文档 检索 )，375 
GeoQuery 
resources for meaning representation (用 于 意义 
表示 的 资源 )，149 
supervised systems for semantic parsing (有 监督 
的 语义 分 析 系 统 )，151 
German (德语 ) 
co-occurrence of words between languages (语言 
间 词 的 同 现 ), 337-339 
dictionary-based approach to subjectivity and sen- 
timent analysis (基于 字典 的 主观 性 和 情感 分 析 
方法 ) 265-266, 273 


discourse parsers for (EiS 4) #7 38). 403 
as fusional language (作为 届 折 型 语言 ), 8 
IR and, 390-392 
language modeling (语言 建 模 )，189 
mention detection ( 提 及 检测 )，287 
morphological richness of (形态 丰富 性 )，354-355 
normalization (规范 化 )，370-371 
OOV rate in (未 登录 词 率 ), 191 
phrase-based model for decoding (用 于 解码 的 基 
于 短语 的 模型 )，345 
polarity analysis of words and phrases ( 词 和 短语 
的 极 性 分 析 ) 269 
QA and, 461 
RTE in, 218 
subjectivity and sentiment analysis (主观 性 和 情 
感 分 析 ), 259, 276 
summarization and (X: fj) , 398, 403-404, 420 
WordNet and, 109 
Germanic languages, language modeling for ( H H. & 
语系 ， 语 言 建 模 ), 189 
GetService process, of voice user interface ( VUI) 
(GetService 过 程 iE TER Ri). 506-507 
Giza, machine translation program (Giza, #L45 Miz 
JF), 423 
GIZA toolkit, for machine translation (GIZA T. B 
包 ， 用 于 机 器 翻译 )，357 
Global Autonomous Language Exploitation (GALE) 
(全 球 自 主语 言 开 发 ) 
distillation initiative of DARPA (DARPA 的 提炼 
计划 ) ，475-476 
evaluation in distillation (提炼 评测 ) ，492 
Interoperability Demo case study( 互 操作 性 演示 
案例 研究 )， 参 见 Interoperability Demo 
(IOD), GALE case study 
metrics for evaluating distillation (提炼 评测 指 
fr), 494 
relevance and redundancy in (4H 3X PE RI JU 4s HE), 
477-479 
Global linear model, discriminative approach to learning 
(全 局 线性 模型 ， 区 分 性 学 习 方 法 )，84 
Good-Turing ( 古 德 -图 灵 ) 
machine translation and (机 器 翻译 )，345 
smoothing techniques in language model estima- 
tion (语言 模型 估算 的 平滑 方法 ), 172 
Google, 435 
Google Translate (Google 翻译 ), 331, 455 
Grammars (语法 ， 文 法 ) 


Combinatory Categorical Grammar (CCG) (组 合 
范畴 语法 )，129-130 
context-free (上 下 文 无 关 )， 参见 Context-free 
grammar (CFGs) 
head-driven phrase structure grammar ( HPSG) 
(中 心 词 驱动 的 短语 结构 文法 )，18 
localization of (本 地 化 ), 514, 516-517 
morphological resource grammars (形态 资源 文 
Æ), 19, 21 
phrase structure (4g i& 4 #9), Æ UL Phrase 
Structure Grammar ( PSG) 
probabilistic context-free (概率 上 下 文 无 关 )， 参 见 
Probabilistic context-free grammars ( PCFGs) 
rule-based grammars in speech recognition (基于 
规则 的 语音 识别 文法 ) 501-503 
Tree-Adjoining Grammar (TAG) ( 树 邻 接 语 
#%), 130 
voice user interface (VUD (语音 用 户 界 面 )，508- 
509 
Grammatical Framework (文法 框架 ), 19, 21 
Graph-based approaches, to automatic summariza- 
tion (基于 图 的 方法 ， 自 动 文摘 ) 
applying RST to summarization (把 RST 用 于 文 
摘 )，402-404 
coherence and cohesion and (连贯 与 衔接 ) ，401-402 
LexPageRank, 406 
overview of (概述 ) 401 
TextRank, 404-406 
Graph generation, in RTE (RTE 中 的 图 生成 ) 
implementing (ZH), 231-232 
modeling 〈 建 模 ) 226 
Graphemes ( 形 素 )，4 
Greedy best-fit decoding, in mention detection (贪心 
最 佳 优先 解码 ， 提 及 检测 )，322 
Groups, aligning views in RTE (组 ，RTE P X X 
视图 ) 233 
Grow-diag-final method, for word alignment ( Grow- 
diag-final 方法 ， 用 于 词 对 齐 ) 341 
GTS (GALE Type System) (GALE 类 型 系统 )， 
534-535 
Gujarati (FRB), BM India languages 


HDP (Hierarchical Dirichlet process) (层次 狄 利 克 


ite), 187 
Head-driven phrase structure grammar (HPSG) (中 


心 词 驱动 的 短语 结构 文法 ) 18 
Head word (中 心 词 ) 
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dependency trees and (KFE), 131 
in Phrase Structure Grammar (PSG) (短语 结构 
SCH), 124 
Headlines, typographical and structural features for 
sentence and topic segmentation (# Bi, ^n] f- 
和 主题 分 割 的 排版 和 结构 特征 )，44-45 
Hebrew (HAAKE) 
encoding and script (编码 和 书写 方式 )，368 
preprocessing best practices in IR (IR 中 的 预 处 理 
最 佳 实践 )，371 
tokens in (JJG), 4 
unification-based models (基于 合 一 的 方法 )，19 
HELM (hidden event language model)《 隐 事件 语言 
模型 ) 
applied to sentence segmentation (应 用 于 句子 分 
80), 36 
methods for sentence or topic segmentation (句子 
或 主题 分 割 方法 ), 40 
Hidden event language model (HELM )( 隐 事件 语 
言 模型 ) 
applied to sentence segmentation (应 用 于 句子 分 
割 )，36 
methods for sentence or topic segmentation (人 句子 
或 主题 分 割 方法 ), 40 
Hidden Markov model (HMM) (KB Ra RMA) 
applied to topic and sentence segmentation (用 于 
主题 和 人 句子 分 割 )，34-36 
measuring token frequency (测量 词 元 频率 )，369 
mention detection and ( 提 及 检测 ) 287 
methods for sentence or topic segmentation (人 句子 
或 主题 分 割 方法 ) 39 
word alignment between languages and (语言 间 的 
ial AFF), 340 
Hierarchical Dirichlet process (HDP) (层次 狄 利克 
EA), 187 
Hierarchical phrase-based models, in machine trans- 
lation (基于 层次 短语 的 模型 ， 机 器 翻译 )， 
350-351 
Hierarchical phrase pairs, in machine translation 
(层次 短语 对 ， 机 器 翻译 )，351 
High-level features, in event matching (高 级 特征 ， 
事件 匹配 )，324 
Hindi 〈 印 地 语 ) £L Indian languages 
IR and，390 
resources for semantic parsing (语义 分 析 资 源 )， 
122 
translingual summarization (EE br xii), 399 
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History, conditional context of probability (Jj #, 
概率 条 件 上 下 文 )，83 
HMM, #23, Hidden Markov model (HMM) 
Homonymy (同音 异 义 ， 同 形 异 义 ) 
in Korean (朝鲜 语 ), 10 
word sense ambiguities and (词义 歧义 ), 104 
HowNet 
dictionary-based approach to subjectivity and sen- 
timent analysis (基于 字典 的 主观 性 和 情感 分 析 
方法 )，272-273 
semantic parsing resources (语义 分 析 资 源 ),，105 
HTML Parser, preprocessing IR documents ( HT- 
ML 分 析 器 ， 预 处 理 IR 文档 ) 392 
Hunalign tool, for machine translation ( Hunalign T. 
具 ， 用 于 机 器 翻译 )，357 
Hungarian (匈牙利 语 ) 
dependency graphs in syntax analysis (句法 分 析 
依存 图 )，65 
IR and, 390 
morphological richness of (形态 丰富 ) 355 
Hybrid methods, for segmentation (分 割 的 混合 方 
ik), 39-40 
Hypergraphs, worst-case parsing algorithm for 
CFGs (HE, CFG 最 坏 情形 分 析 算 法 ) 74-79 
Hypernyms (上 位 词 ) 442 
Hyponymy (上 下 义 关系 ), 310 
Hypotheses, machine translation and (4B i., L5 
翻译 ) 346 


IBM Models, for machine translation (IBM 模型 ， 
用 于 机 器 翻译 )，338-341 
Identification, of arguments (识别 ， 论 元 )，123, 139- 
140 
IDF, 2 见 Inverse document frequency (IDF) 
IE, 24 Information Extraction (IE) 
ILP (Integer linear programming) (整数 线性 规 
Ril) , 247 
Implementation process, in RTE (实现 过 程 ，RTE) 
alignment (XJ 3F) , 233-236 
enrichment (#44), 228-231 
graph generation (图 生成 )，231-232 
inference (推理 ) 236-238 
overview of (概述 ) 227 
preprocessing (HARI), 227-228 
training (训练 )，238 
IMS (It Makes Sense). program for word sense dis- 
ambiguation (IMS, ia] X i JF), 117 


Independence assumption (独立 性 假设 ) 
document retrieval and (文档 检索 ) 372 
overcoming in predicate-argument structure (在 谓 
词 - 论 元 结构 中 克服 ), 137-138 
Indexes (索引 ) 
of documents in distillation system (提炼 系统 的 
文档 ) 483 
for IR generally (一 般 用 于 信息 检索 )，366 
latent semantic indexing (LSI) (潜在 语义 索 
5|), 381 
for monolingual IR (用 于 单 语 信 息 检 索 ),，373-374 
for multilingual IR (用 于 多 语 信 息 检索 )，383-384 
phrases indices (短语 索引 ), 366, 369-370 
positional indices (fv E 3€ 9|). 366 
translating MLIR queries (翻译 MLIR #& 
iJ), 384 
Indian languages, IR (EJ RE iE zi. IR), 390, 2 
见 Hindi 
INDRI document retrieval system (INDRI 文档 检索 
系统 )，323 
Inexact retrieval models, for monolingual informa- 
tion retrieval (不 精确 检索 模型 ， 用 于 单 语 信 
ARR), 374 
InfAP metrics, for IR performance (InfAP 指标 ， 
用 于 衡量 IR 性 能 ) 389 
Inference, textual, (推理 ， 文 本 )， 参 见 Textual 
inference 
Inflectional paradigms ( 届 折 变化 范式 ) 
in Czech (捷克 语 ), 11-12 
in morphologically rich languages (形态 丰富 的 语 
BH»), 189 
Information context, as measure of semantic similar- 
ity《〈 信 息 上 下 文 ， 作 为 语义 相似 度 的 度 
E, 112 
Information extraction (IE) (信息 抽取 )， BR En- 
tity detection and tracking (EDT) 
defined (和 定义) 285 
entity and event resolution and (实体 和 事件 消 
fi». 100 
Information retrieval (IR) (信息 检索 ) 
bibliography (文献 ) 394-396 
crosslingual (B i% A), Z Ul Crosslingual infor- 
mation retrieval (CLIR) 
data sets used in evaluation of (评测 中 使 用 的 数 
HÆ), 389-391 
distillation compared with (与 提炼 做 比较 ), 475 
document preprocessing for ( #4 Hi Ab HE), 


366-367 

document syntax and encoding (文档 句法 和 编 
码 ) 367-368 

evaluation in (PEW), 386-387, 391 

introduction to (4r 44), 366 

key word searches in (关键 词 搜索 )，433 

measures in (J& 5j) , 388-389 

monolingual ( 单 语 )， 参见 Monolingual informa- 
tion retrieval 

multilingual (多 语 )， 参 见 Multilingual informa- 
tion retrieval (MLIR) : 

normalization and (规范 化 )，370-371 

preprocessing best practices ( 预 处 理 最 佳 实践 )， 
S11 -312 

redundancy problem and (元 余 性 问题 ), 488 

relevance assessment (相关 性 评估 )，387-388 

summary (总 结 )，393 

tokenization and ( 词 元 化 ),， 369—370 

tools, software, and resources (工具 ， 软 件 与 资 
WR), 391-393 

translingual (isp), 491 

Informative summaries, in automatic summarization 
(信息 型 摘要 , A 动 文摘 ) » 401-404 
InfoSphere Streams (InfoSphere jf). 530-531 


Insertion metric, in machine translation (插入 指标 ， 


机 器 翻译 ) 335 

Integer linear programming (ILP) (整数 线性 规 
Xp. 247 

Interactive voice response (IVR) (交互 语音 应 答 ) ， 
905, 511 


Interoperability Demo (IOD) , GALE case study (CF. 
操作 性 演示 ，GALE 案例 研究 ) 
computational efficiency 〈 计 算 效 率 )，537 
flexible application building with (用 来 构建 灵活 
FA). 537 
functional description (3) BE ETH). 532-534 
implementing (SE HL), 534-537 
overview of 〈 概 述 ) 531-532 
Interoperability, in aggregated NLP (H#R/ETE. R 
4 NLP), 540 
Interpolation, language model adaptation and (if 
值 ， 语 言 模型 适应 ), 176 
Intrinsic evaluation，of summarization (内 部 评测 ， 
文摘 ), 412 
Inverse document frequency (IDF)〉( 倒 文档 频率 ) 
answer scores in QA and (QA 中 的 回答 评分 )， 
450-451 


3 7] 419 


document representation in monolingual IR (& i& 
IR 中 的 文档 表示 )，373 
relationship questions and (关系 问题 ), 488 
searching over unstructured sources 《搜索 非 结 构 
W), 445 
Inverted indexes, for monolingual information re- 
trieval ( 倒 排 索引 ， 用 于 单 语 信息 检索 )， 
373-374 
IOD case study (IOD 案例 研究 )， 参 见 Interopera- 
bility Demo (IOD), GALE case study 
IR, 4&5 Information retrieval CIR) 
Irregularity (不 规则 性 ) 
defined (定义 )，8 
issues with morphology induction (形态 归纳 问 
wi), 21 
in linguistic models (语言 模型 )，8-10 
IRSTLM toolkit, for machine translation (IRSTLM 
工具 包 ， 用 于 机 器 翻译 )，357 
Isolating (analytic) languages (孤立 型 /分 析 型 语言 ) 
finite-state technology applied to (应 用 有 限 状 态 
HR), 18 
morphological typology and 《形态 类 型 学 ), 7 
It Makes Sense (IMS), program for word sense dis- 
ambiguation (IMS， 词 义 消 歧 程 序 ), 117 
Italian (意大利 语 ) 
dependency graphs in syntax analysis (句法 分 析 
中 的 依存 图 )，65 
IR and, 390-391 
normalization and (规范 化 )，371 
polarity analysis of words and phrases ( 词 和 短语 
的 极 性 分 析 )，269 
QA and，461 
RTE in, 218 
summarization and (Xj). 399 
WordNet and, 109 
IVR (interactive voice response) (A42 H iB i WA, 
505, 511 
IXIR distillation system (IXIR 4&4 RK E). 488-489 


Japanese C H i&) 
as agglutinative language (作为 黏着 型 语言 )，7 
anaphora frequency in 〈 回 指 频 率 ) ，444 
call-flow localization and (呼叫 流程 本 地 化 ), 514 
crosslingual QA ( 跨 语 言 问答 )，455 
discourse parsers for ( 语 篇 分 析 器 )，403 
EDT and, 286 
GeoQuery corpus translated into (GeoQuery 语 料 


420 d 7] 





库 翻 译 为 日 语 )，149 
IR and, 390 
irregular verbs (不 规则 动词 ), 10 
language modeling (语言 建 模 ), 193-194 
polarity analysis of words and phrases ( 词 和 短语 
HER TESS HT), 269 
preprocessing best practices in IR (IR 中 的 预 处 
SH fie (ESE BK) , 371-372 
QA architectures and (QA 48 fj ), 437-438, 
461, 464 
semantic parsing (iE X. 4r Hf). 122, 151 
subjectivity and sentiment analysis (主观 性 和 情 
感 分 析 ) 259, 267-271 
word order and ( 词 序 ), 356 
word segmentation in (分 词 ) 4-5 
JAVELIN system, for QA (JAVELIN 系统 ， 用 于 
la] 2), 437 
Joint inference, NLP and (RA HEB, NLP), 320 
Joint systems (联合 系统 ) 
optimization vs. interoperability in aggregated 
NLP (RE NLP 中 的 优化 和 互 操作 性 )，540 
types of EDT architectures (EDT 架构 类 
2), 286 
Joshua machine translation program (Joshua 机 器 翻 
译 程 序 ) 357, 423 
JRC-Acquis corpus (JRC-Acquis 语料库 ) 
for evaluating IR systems (用 于 评测 IR 系统 )，390 
for machine translation (用 于 机 更 翻译)，358 


KBP (Knowledge Base population), of Text Analy- 
sis Conferences (TAC) (知识 库 填 充 ， 文本 分 
HÈ), 481-482 

Kernel functions, SVM mapping and ( M XX. 
SVM 映射 ) 317 

Kernel methods, for relation extraction ( ££ 77 iX , 
用 于 关系 抽取 )，319 

Keyword searches (关键 词 搜 索 ) 
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issues and challenges (问题 和 挑战 ), 8 
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categories in language models (语言 模型 中 的 形 
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grow-diag-final method ( grow-diag-final J 
HR. 341 
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tems ( 35 HE & Al RM. QA 系统 指标 )， 
462-463 
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MSE (Multilingual Summarization Evaluation) (多 
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Multi-engine machine translation ( MEMT ), in 
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Multilingual automatic summarization (418 A ay XC 
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automated evaluation methodologies (自动 评测 方 
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building a summarization system (构建 文摘 系 
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challenges in (挑战 ) 409-410 
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422-423 
manual evaluation methodologies (手工 评测 方法 
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Multilingual language modeling (多 语 语 言 建 模 )， 
195-196 
Multilingual Summarization Evaluation (MSE) (多 
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器 )，316 
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challenges in RTE (RTE 中 的 挑战 ) 212 
enrichment stage of RTE model (RTE 模型 的 富 
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relation extraction and (关系 抽取 ), 310 
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bibliography (文献 )，548-549 

computational efficiency (计算 效率 ),525-526 

data-manipulation capacity (数据 处 理 能 力 ), 526 
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Natural language understanding (NLU) (自然 语言 
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NDCG (Normalized discounting cumulative gain) 
〈 归 一 化 折扣 累计 增益 )，389 
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Neural network language models ( NNLMs) (神经 
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coverage rates in language models (语言 模型 的 覆 
盖 率 ) 170 
morphologically rich languages and (形态 丰富 的 
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准 )，527 
OpenCCG project (OpenCCG Mm A), 21 
openNLP, 423 
Opinion questions, QA and (意见 问题 ，QA)，433 
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subjectivity and sentiment analysis lexicon (主观 
性 和 情感 分 析 词 典 ) 262 
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coverage rates in language models (if zi 1R W 98. mi 
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automatic summarization (自动 文摘 ), 401 
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TextRank compared with (与 TextRank Ht 
dE), 404 
Paradigms (范式 ) 
classification (4%), 133-137 
functional morphology models and ( pi 4i 3X JE A 
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inflectional paradigms in morphologically rich lan- 
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automatic evaluation of summarization (文摘 自动 
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metrics in (指标 ) 420 


Paragraphs, sentences forming (段落 ， 句 子 构成 )，29 
Parallel backoff (并 行 回 退 ), 184 
Parameter estimation language models (语言 模型 参 
数 估计 ) 
Bayesian parameter estimation ( UI 叶 . 斯 参数 估 
tH), 173-174 
large-scale models (大 规模 模型 ) 174-176 
maximum-likelihood estimation and smoothing 
(最 大 似 然 估 计 与 平滑 )，171-173 
Parameter tuning (W2), 348-349 
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Paraphrasing, parsing natural language and (复述 ， 
4r 9r BRIG A). 58-59 
Parasitic gap recovery, in RTE (RTE 省 略 恢复 )，249 
parole and langue (de Saussure) (言语 和 语言 ， 索 
AK), 13 
Parsing (句法 分 析 ) 
algorithms for (算法 ), 70-72 
ambiguity resolution in (歧义 消解 )，80 
defined (ŒX), 97 
dependency parsing (依存 分 析 )， 79-80 - 
discriminative models (判别 性 模型 )，84-87 
generative models (生成 性 模型 )，83-84 
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semantic parsing (语义 分 析 )， 参 见 Semantic 
parsing 
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shift-reduce parsing (# HEF Z4 4 Br) , 72-73 
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features of supervised systems (有 监督 系统 的 特 
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implementing RTE and (实现 RTE), 227 
natural language grammars and (自然 语言 文 
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in PSG, 125-127 
QA architectures and (QA 4244), 439 
in Rosetta Consortium distillation 
(Rosetta 协会 提炼 系统 )，480 
for sentence segmentation (用 于 句子 分 割 ),， 43 
syntactic analysis of natural language (自然 语言 
句法 分 析 )，57-58 
PART-WHOLE relation class (部 分 整体 关系 类 ), 311 
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方法 ， 为 句子 排序 ), 407 
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语言 模型 ， 亚 词 单 元 ) 192 
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Path (PR) 
in CCG, 130 
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for verb sense disambiguation (用 于 动词 词义 消 
IE), 112 
Pattern Analysis, Statistical Modelling and Compu- 
tational Learning (PASCAL) (模式 分 析 ， 统 
计 建 模 与 计算 学 习 ) 
evaluating textual entailment (评测 文本 区 
i85, 213 
RTE challenge (RTE PEAK), 451-452 
textual entailment and (文本 蕴涵 ), 211 
Pauses, prosodic cues (fX. GHAR), 45-47 
Peer surveys, in evaluation of summarization (同行 
调查 ， 文 摘 评 测 )，412 
Penn Treebank〈 宾 州 树 库 ) 
dependency trees and (依存 树 )，130-132 
parsing issues and (分 析 问 题 )，87-89 
performance degradation and (性 能 下 降 )，147 
phrase structure trees in (短语 结构 树 )，68,，70 
PropBank and, 123 
PER (Position-independent error rate) 
错误 率 )，335 
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Performance (性 能 ) 
of aggregated NLP (聚合 NLP), 541 
combining classifiers to boost ( Combination hy- 


(合并 分 类 器 以 提升 一 ， 合 并 假 


(位 置 无 关 
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of document segmentation methods (文档 分 割 方 
法 ), 41 

evaluating IR (评测 IR), 389 

evaluating QA (评测 QA), 462-464 

evaluating RTE (评测 RTE), 213-214 

feature performance in predicate-argument struc- 
ture (谓词 - 论 元 结构 的 特征 性 能 )，138-140 

Penn Treebank ( 宾 州 树 库 ), 147 

Period (. ), sentence segmentation markers (4) 5, 
句子 分 割 标记 ), 30 
Perplexity (困惑 度 ) 

criteria in language model evaluation (语言 模型 
评价 标准 )，170-171 

inventorying morphemes and (编制 词素 表 )，192 

language modeling using morphological categories 
(用 形态 类 别 进行 语言 建 模 )，193 
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Persian (波斯 语 ) 
IR and, 390 
unification-based models (基于 合 一 的 模型 )，19 
Phoenix, 150 
Phonemes (音素 ), 4 
Phonology (语音 学 ) 
compared with morphology and syntax and or- 
thography 〈 与 形态 学 、 名 法、 正字 法 比较 )，3 
issues with morphology induction (形态 归纳 问 
Ei, 21 
Phrasal verb collocations, in PSG (PSG 中 的 动词 
短语 搭配 ), 126 
Phrase-based models, for MT (用 于 机 器 翻译 的 基 
于 短语 的 模型 ) 
coping with model size (处 理 模 型 大 小 ),，349-350 
cube pruning approach to decoding (37. Ay BY #X fif 
13 Jr ik). 347-348 
decoding (#45), 345-347 
hierarchical phrase-based models (基于 层次 短语 
的 方法 )，350-351 
log-linear models and parameter tuning (对 数 线 
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overview of (概述 ) 343-344 
training (训练 ) 344-345 
Phrase feature, in PSG (PSG 中 的 短语 特征 ) 124 
Phrase indices, tokenization and (短语 索引 ， 词 元 
4%), 366, 369-370 
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corpus-based (基于 语料库 的 ) 267-269 
dictionary-based (基于 字典 的 ) 264-267 
overview of (概述 )，264 
Phrase Structure Grammar ( PSG) 
%), 124-129 
Phrase structure trees (短语 结构 树 ) 
examples of (PF), 68-70 
morphological information in (形态 信息 ), 91 
in syntactic analysis (句法 分 析 )，67 
treebank construction and ( 树 库 构造 )，62 
Phrases (短语 ) 
early approaches to summarization and (早期 的 
文摘 方法 ) 400 
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Polarity (R tE) 
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dependency graphs for analysis of (用 于 句法 分 析 
的 依存 图 ) 63-67 
discriminative parsing models (判别 性 分 析 模 
型 ) 84-87 
of documents in IR (IR 中 的 文档 )，367-368 
generative parsing models (生成 式 分 析 模 型 ) 83-84 
introduction to (Æ), 57 
minimum spanning trees and dependency parsing 
(最 小 生成 树 和 依存 分 析 )，79-80 
morphology and (形态 学 )，90-92 
parsing algorithms for (分 析 算 法 ), 70-72 
parsing natural language (分 析 自 然 语言 )，57-59 
phrase structure trees for analysis of (短语 结构 
树 用 于 句法 分 析 )， 67-70 
probabilistic context-free grammars (概率 上 下 文 
无 关 文法 )，80-83 
QA and, 439-440 
shift-reduce parsing ( 移 进 归 约 分 析 ),，72-73 
structural matching and (结构 匹配 ), 446-447 
summary (总 结 )，92 
tokenization, case, and encoding and ( 词 元 切 分 ， 
大 小 写 ， 编 码 )，87-89 
treebanks data-driven approach to ( 树 库 ， 数 据 
驱动 方法 )，61-63 
word segmentation and (分 词 ) 89-90 
worst-case parsing algorithm for CFGs (CFG 的 
最 坏 情 形 分 析 算 法 ), 74-79 
Syntax-based language models (基于 句法 的 语言 模 
HY), 180-181 
Synthetic languages, morphological typology and 
(综合 型 语言 ， 形 态 类 型 学 ), 7 
System architectures (系统 结构 ) 
for distillation (提炼 )，488 
for semantic parsing (7 X47 #7). 101-102 
System paradigms, for semantic parsing 〈 系 统 范 
式 ， 用 于 语义 分 析 )，101-102 
Systran's Babelfish program (Systran, Babelfish f£ 
FF), 331 


TAC, ÆW Text Analysis Conferences (TAC) 

TAG ( Tree-Adjoining Grammar) ( pt 邻接 语 
3E), 130 

TALES (Translingual Automated Language Exploi- 

( 跨 语 际 自动 语言 开发 系 


tation System) 
统 )，538 


Tamil ( 泰 米尔 语 ) 
as agglutinative language 〈 作 为 黏着 型 语言 )，7 
IR and，390 
Task-based evaluation, of translation. (基于 任务 
的 评测 PED, 334 
TBL (transformation-based learning), for sentence 
segmentation (基于 转换 的 学 习 ， 用 于 句子 分 
割 )，37 
TDT (Topic Detection and Tracking) program (3E 
题 检 测 与 跟踪 ) 32-33, 42, 425-426 
Telugu ( 泰 卢 固 语 )，390 
Templates, in GALE distillation initiative (模板 ， 
GALE 提炼 计划 )，475 
Temporal cue words, in PSG (时 间 提 示 词 ，PSG)， 
127-128 
TER (Translation-error rate) (翻译 错误 率 )，337 
Term-document matrix, document representation in 
monolingual IR (RE PMB. Bis IR 的 文 
MRA), 373 
Term frequency-inverse document frequency ( TF- 
IDF) (术语 频率 - 倒 文档 频率 ) 
multilingual automatic summarization and (多 语 
自动 文摘 )，411 
QA scoring and (QA 评分 )，450-451 
unsupervised approaches to sentence selection (JC 
监督 的 句子 选择 方法 )，489 
Term frequency (TF) (术语 频率 ) 
TF document model (术语 频率 文档 模型 ) 373 
unsupervised approaches to sentence selection 无 
监督 的 句子 选择 方法 ) 489 
Terms (术语 ) 
applying RTE to unknown (把 RTE 应 用 于 未 知 
me BI 
early approaches to summarization and (F W Xx 
1877 HE), 400 
in GALE distillation initiative (GALE 提炼 计 
Ri), 475 
mapping term vectors to topic vectors (把 术语 问 
量 映射 为 话题 回 量 )，381 
mapping to lemmas (把 一 映射 为 原形 )， 370 
posting lists ( 倒 排 表 )，373-374 
Terrier IR framework (Terrier IR #£4£), 392 
Text Analysis Conferences (TAC) (文本 分 析 会 议 ) 
competitions related to summarization (与 文摘 有 
FE AY FE BE)» 424 
data sets related to summarization (与 文摘 相关 


的 数据 集 )，425 


evaluation of QA systems (QA 系统 评测 )， 
460-464 
history of QA systems (QA 系统 历史 ) 434 
Knowledge Base Population (KBP) ( #1 iH FE J& 
$E) , 481-482 
learning summarization (2€ 2] Xi), 408 
Text REtrieval Conference (TREC) (文本 检索 会 议 ) 
data sets for evaluating IR systems (IR 系统 评测 
A HE 2) . 389-390 
evaluation of QA systems (QA 系统 评测 )，460-464 
history of QA systems (QA 系统 历史 )，434 
redundancy reduction (JLA ib MR), 489 
Text Tiling method (Hearst) (文本 排列 方法 ) 
sentence segmentation (句子 分 割 ), 42 
topic segmentation (主题 分 割 )，37-38 
Text-to-speech (TTS) (文本 到 语音 转换 ) 
architecture of spoken dialog systems (口语 对 话 
系统 架构 )，505 
history of dialog managers (对 话 管 理 器 历史 )， 
504 
localization of grammars and (文法 本 地 化 )，514 
in RTTS, 538 
speech generation Ci £i Æ M), 503-504 
TextRank graphical approaches to automatic summari- 
zation (TextRank ， 自 动 文摘 的 图 方法 ),404-406 
Textual entailment ( X A ZR W), B UL Recognizing 
textual entailment ( RTE) 
contradiction in (J JA), 211 
defined (ŒX), 210 
entailment pairs (ZR EXT). 210 
Textual inference (文本 推理 ) 
implementing (实现 )，236-238 
latent alignment inference (潜在 对 齐 推 理 )， 
247-248 
modeling ( 建 模 )，226-227 
NLP and, 209 
RTE and, 242-244 
TF-IDF (term frequency-inverse document frequen- 
cy) (术语 频率 - 倒 文档 频率 ) 
multilingual automatic summarization and (多 语 
自动 文摘 )，411 
QA scoring and (QA 评分 )，450-451 
unsupervised approaches to sentence selection (无 
监督 的 句子 选择 方法 )、489 
TF (term frequency) (术语 频率 ) 
TF document model (术语 频率 文档 模型 )，373 


unsupervised approaches to sentence selection (Jt 
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监督 的 句子 选择 方法 )，489 
Thai (泰语 ) 
as isolating or analytic language (作为 孤立 型 或 
分 析 型 语言 )，7 
word segmentation in (分 词 ), 4-5 
Thot program, for machine translation ( Thot 程序 ， 
用 于 机 器 翻译 ) 423 
Tika (Content Analysis Toolkit), for preprocessing 
IR documents (Tika, Xkrfr LAM, AF 
预 处 理 IR 文档 ) 392 
TinySVM software，for SVM training and testing 
CTinySVM 软件 ， 用 于 SVM 训练 和 测试 )， 
135-136 
Token streams 〈 词 元 流 )，372-373 
Tokenization( 词 元 化 ) 
Arabic (阿拉 伯 语 ),， 12 
character n-gram models and (字符 n 元 模型 )， 
370 
multilingual automatic summarization and (多 语 
自动 文摘 )，410 
normalization and (规范 化 )，370-37] 
parsing issues related to (与 一 相关 的 句法 分 析 问 
题 )，87-88 
phrase indices and (4g iB 2& 5|), 369-370 
in Rosetta Consortium distillation 
(Rosetta 协会 提炼 系统 )，480 


word segmentation and 〈 分 词 ) 369 


system 


Tokenizers, tools for building summarization sys- 
tems 〈 词 元 化 工具 ， 用 于 构建 文摘 系统 )，423 
Tokens( 词 元 ) 
lexical features in sentence segmentation 〔 人 句子 分 
割 的 词汇 特征 )，42-43 
mapping between scripts ( normalization) 
系统 间 的 上 映射， 规范 化 )，370-371 
MLIR indexes and (MLIR 索引 )，384 
output from information retrieval (信息 检索 输 
H), 366 
processing stages of segmentation tasks ( 4} 3| ff 
务 的 处 理 阶段 ) 48 
in sentence segmentation (人 句子 分 割 ) 30 
translating MLIR queries (翻译 MLIR # 
询 ) 384 
in word structure ( 词 结构 )，4-5 
Top-k models, for monolingual information retrieval 
(Top-k 模型 ， 用 于 单 语 信息 检索 ), 374 
Topic-dependent language model adaptation (主题 
相关 的 语言 模型 适应 ),，176 


(书写 
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Topic Detection and Tracking (TDT) program (x 
题 检 测 与 跟踪 计划 ),，32-33, 42, 425-426 
Topic or domain, features of supervised systems 
(主题 或 领域 ， 有 监督 系统 的 特征 )，111 
Topic segmentation (主题 分 割 ) 
comparing segmentation methods (比较 分 割 方 
法 )，40-41 
discourse features ( 语 篇 特征 ), 44 
discriminative local classification method (判别 性 
局 部 分 类 方法 )，36-38 
discriminative sequence classification method (JJ 
别 性 序列 分 类 方法 ) 38-39 
extensions for global modeling (全 局 建 模 扩 
Æ), 40 
features of (特征 ), 41-42 
generative sequence classification method (生成 
式 序列 分 类 方法 )，34-36 
hybrid methods (混合 方法 ) 39-40 
introduction to (M), 29 
lexical features (词汇 特征 )，42-43 
methods for detecting probable topic boundaries 
(检测 可 能 的 主题 边界 的 方法 )，33-34 
overview of (概述 )，32-33 
performance of (HE), 41 
processing stages of segmentation tasks (分 割 任 
务 的 处 理 阶段 )，48 
prosodic features (韵律 特征 ) 45-48 
speech-related features (语音 相关 特征 ), 45 
syntactic features (句法 特征 ),， 43-44 
typographical and structural features (排版 和 结 
构 特征 )，44-45 
Topics, mapping term vectors to topic vectors (dX 
题 ， 把 术语 向 量 映射 为 主题 向 量 ), 381 
Traces nodes, Treebanks (3 fi AR. W FE), 
120-121 
Training (训练 ) 
issues related to machine translation (MT) (#HL4 
翻译 相关 问题 )，197 
minimum error rate training (MERT) (最 小 错误 
率 训 练 ) 349 
phrase-based models (基于 短语 的 模型 )， 
344-345 
predicate-argument structure (谓词 - 论 元 模型 )， 
140-141, 447 
recognizing textual entailment (RTE) (识别 文本 
蕴涵 ), 238 
in RTE, 238 


spoken dialog systems (Oia Stiff KBE), 517-519 
stage of RTE model (RTE 模型 阶段 ), 238 
support vector machines (SVMs) (支持 问 量 机 )， 
135-137 
Transcription (445) 
of utterances based on rule-based grammars (3& 
于 规则 的 文法 的 话语 一 )，502-503 
of utterances in spoken dialog systems (口语 对 话 
系统 的 话语 一 )，513 
Transducers finite-state (转录 机 ， 有 限 状 态 )，16-17 
Transformation-based approaches, applying to RTE 
(基于 转换 的 方法 ， 应 用 于 RTE), 241-242 
Transformation-based learning (TBL), for sentence 
segmentation (基于 转换 的 学 习 ， 用 于 句子 分 
割 )，37 
Transformation stage. of summarization systems 
(文摘 系统 的 转换 阶段 )，400,，421 
Transitive closure, of relations (4776 BH f£, HR), 
324-326 
Translation (翻译 ) 
human assessment of word meaning (词义 的 人 工 
bE fi), 333-334 
by machines 〈 通 过 机 器 ) ， 参 见 Machine transla- 
tion (MT) 
translation-based approach to CLIR (基于 翻译 的 
CLIR F). 378-380 
Translation-error rate (TER) (翻译 错误 率 )，337 
Translingual Automated Language Exploitation 
System (TALES) ( 跨 语 际 自动 语言 开发 系 
统 )，538 
Translingual information retrieval ( 跨 语 际 信 息 检 
z), 491 
Translingual summarization ( 跨 语 际 文 摘 )，398， 
参见 Automatic summarization 
Transliteration, mapping text between scripts (i$ 
PE. 不同 书写 系统 间 的 文本 映射 ),，368 
TREC. 参见 Text REtrieval Conference (TREC) 
trec-eval, evaluation of IR systems (trec-eval, IR 
系统 评测 )，393 
Tree-Adjoining Grammar (TAG) (〈 树 邻接 语法 )， 
130 
Tree-based language models (基于 树 的 语言 模型 )， 
185-186 
Tree-based models, for MT (基于 树 的 模型 ， 用 于 
机 器 翻译 ) 
chart decoding ( 线 图 解码 )，351-352 
hierarchical phrase-based models (基于 层次 短语 


的 模型 ) 350-351 
linguistic choices and (语言 学 选择 )，354 
overview of (概述 )，350 
syntactic models (句法 模型 ),，352-354 
Tree edit distance, applying to RTE (fj £u 8 B E, 
应 用 于 RTE), 240-241 
Treebanks CB EE) 
data-driven approach to syntactic analysis (句法 
分 析 的 数据 驱动 方法 ) 61-63 
dependency graphs in syntax analysis (句法 分 析 
依存 图 )，63-67 
phrase structure trees in syntax analysis (句法 分 
析 短 语 结构 树 )，67-70 
traces nodes marked as arguments in PropBank 
(PropBank 中 的 跟踪 节点 作为 论 元 )，120-121 
worst-case parsing algorithm for CFGs (CFG 最 
坏 情形 分 析 算 法 ), 77 
Trigger models, dynamic self-adapting language 
models (触发 嚣 模型， 动态 自 适应 语言 模型 )， 
176-177 
Triggers (触发 器 ) 
consistency of 〈 一 致 性 )，323 
finding event triggers ( 找 出 事件 触发 器 )， 
321-322 
Trigrams (三 元 组 )，502-503 
Troponymy (方式 关系 )，310 
Tuning sets ( 调 参 集 )，348 
Turkish (土耳其 语 ) 
dependency graphs in syntax analysis (句法 分 析 
IK TE FED . 62, 65 
GeoQuery corpus translated into ( GeoQuery if #} 
库 翻 译 为 一 ) ，149 
language modeling for morphologically rich lan- 
guages 〈 形 态 丰 富 语 言 的 语言 建 模 )，189-191 
language modeling using morphological categories 
《用 形态 类 别 进 行 语 言 建 模 )，192-193 
machine translation and (机 器 翻译 )，354 
morphological richness of (形态 丰富 性 )，355 
parsing issues related to morphology (与 形态 相 
关 的 分 析 问 题 )，90-91 
semantic parser for (语义 分 析 器 )，151 
syntactic features used in sentence and topic seg- 
mentation (句子 和 主题 分 割 中 使 用 的 句法 特 
fE), 43 
Type-based candidate extraction, in QA (基于 类 型 
的 候选 抽取 ，QA) ，446 ，451 
Type classifier〈 类 型 分 类 器 ) 
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answers in QA systems (QA 系统 的 回答 )， 
440-442 
in relation extraction (关系 抽取 )，313 
Type system, GALE Type System (GTS) (类 型 系 
F, GALE 类 型 系统 ), 534-535 
Typed feature structures, unification-based mor- 
phology and (有 类 型 的 特征 结构 ， 基 于 合 一 的 
形态 学 ) 18-19 
Typographical features, sentence and topic segmen- 
tation (排版 特征 ， 句 子 和 主题 分 割 ), 44-45 
Typology, morphological (类 型 学 ， 形态 ), 7-8 


UCC (UIMA Component Container) (UIMA 组 件 
容器 ) 537 
UIMA， 参 见 Unstructured Information Manage- 
ment Architecture (UIMA) 
Understanding, spoken dialog systems and (理解 ， 
E BET AR BE) , 500-503 
Unicode (UTF-8/UTF-16) 
encoding and script (编码 和 书写 方式 )，368 
parsing issues related to encoding systems (与 编 
码 系统 相关 的 分 析 问 题 )，89 
Unification-based morphology (基于 合 一 的 形态 
=), 18-19 
Unigram models (Yamron) (一 元 模型 ，Yamron)， 
35-36 
Uninflectedness, homonyms and (F Jg dr 45 4E, [Al 
音 异 义 词 ) 12 
Units of thought, interlingual document representa- 
tions 〈 思 维 单位 ， 中 间 语 言 文档 表示 )，381 
Unknown terms，applying RTE to (未 知 术 语 ， 应 
用 于 RTE), 217 
Unknown word problem (未 登录 词 问 题 ), 8, 13-15 
Unstructured data, candidate extraction from ( 非 结 
构 数 据 ， 从 中 抽取 候选 ), 445-449 
Unstructured Information Management Architecture 
(UIMA) ( 非 结 构 信 息 管理 架构 ) 
attributes of (属性 )，528-529 
GALE IOD and, 535, 537 
overview of (概述 ) 527-528 
RTTS and, 538-540 
sample code (代码 样 例 )，542-547 
summarization frameworks (文摘 框架 ), 422 
UIMA Component Container (UCC) (UIMA 组 
(FA BE) , 537 
Unstructured text, history of QA systems and (4E 


结构 文本 ，QA 系统 历史 )，434 
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Unsupervised adaptation, language model adaptation 
and 〈 无 监督 适应 ， 语 言 模 型 适应 )，177 
Unsupervised systems (无 监督 系统 ) 
machine learning (机 器 学 习 ), 342 
relation extraction (关系 抽取 )，317-319 
sentence selection (人 句子 选择 )，489 
subjectivity and sentiment analysis (主观 性 和 情 
感 分 析 ) ，264 
word sense disambiguation (ia) V ṣi), 112-114 
Update summarization, in automatic summarization 
(更 新 文摘 ， 自 动 文摘 )，397 
Uppercase (capitalization), sentence segmentation 
markers (KS, KStt. BFA Hic). 30 
UTF-8/UTF-16 (Unicode) 
encoding and script (编码 和 书写 方式 )，368 
parsing issues related to encoding systems (与 编 
码 系 统 相 关 的 分 析 问 题 )，89 
Utterances, in spoken dialog systems (话语 ， 口语 
对 话 系 统 ) 
rule-based approach to transcription and annota- 
tion (基于 规则 的 转 写 和 标注 方法 )，502-503 
transcription and annotation of ( 转 写 和 标 
注 )，513 


Variable-length language models ( 变 长 语言 模型 )， 
179 
Vector space model (向 量 空间 模型 ) 
document representation in monolingual IR ( 单 语 
IR 的 文档 表示 ) ，372-373 
for document retrieval (用 于 文档 检索 ) 374-375 
Verb clustering, in PSG (动词 聚 类 ，PSG)，125 
Verb sense, in PSG (动词 词义 ，PSG) 126-127 
Verb, subject, object (VSO) word order (动词 、 
主语 、 宾 语 语序 ) 356 
VerbNet , resources for predicate-argument recogni- 
tion (VerbNet， 谓 词 - 论 元 识别 资源 )，121 
Verbs (动词 ) 
features of predicate-argument structures (谓词 - 
论 元 结构 特征 ) 145 
relation extraction and (关系 抽取 ), 310 
Vietnamese (越南 语 ) 
as isolating or analytic language (作为 孤立 型 或 
分 析 型 语言 )，7 
NER task in (命名 实体 识别 任务 ),， 287 
Views (WEI) 
in GALE IOD, 534 
RTE systems (RTE R), 220 


Vital few (80/20 rule) (HEA A397, 80/20 FEMI), 14 
Viterbi algorithm ( Viterbi 算法 ) 
applied to Rosetta Consortium distillation system 
(HF Rosetta 协会 提炼 系统 )，480 
methods for sentence or topic segmentation (句子 
或 主题 分 割 方法 ) 39-40 
searching for mentions (R HKR), 291 
Vocabulary (词汇 表 ) 
indexing IR output (索引 IR 输出 )，366 
language models and (语言 模型 )，169 
in morphologically rich languages (É A = * iE 
aH), 190 
productivity/creativity and (能 产 性 /创造 性 ) 14 
topic segmentation methods (主题 分 割 方法 ) 38 
Voice Extensible Markup Language (语音 可 扩展 标 
if A). BIL VoiceXML (Voice Extensible 
Markup Language) 

Voice feature, in PSG (iB AS FFE, PSG), 124 
Voice of sentence, features of supervised systems 
(句子 的 语 态 ， 有 监督 系统 的 特征 )，111 
Voice quality, prosodic modeling and (语音 质量 ， 

韵律 建 模 )，47 
Voice user interface (VUD (语音 用 户 界 面 》 
call- flow (呼叫 流程 )，505-506 
dialog module (DM) of (对 话 模 块 )，507-508 
GetService process of ( GetService if fé, 
506-507 
grammars of (X iE), 508-509 
VUI completeness principle (VUI 完 整 性 原则 )， 
509-510 
VoiceXML ( Voice Extensible Markup Language) 
(语音 可 扩展 标注 语言 ) 
architecture of spoken dialog systems (口语 对 话 
系统 架构 )，505 
generations of dialog systems (对 话 系 统 的 代 )， 
911-512 
history of dialog managers ( Xt i& f£ XB #8 Dj 
Æ), 504 
VUI, 参见 Voice user interface (VUD 


W3C (World Wide Web Consortium) ( Jj 4 PI E 
4), 504 3 
WASP program, for rule-based semantic parsing 
systems (WASP 程序 ， 用 于 基于 规则 的 语义 

分 析 系 统 )，151 


Web 2. 0 ，accelerating need for crosslingual retrieval 


(Web 2.0， 跨 语言 检索 的 巨大 需求 ), 365 


WER (word-error rate), machine translation met- 
rics and ( 词 错 误 率 ， 机 器 翻译 指标 )，336-337 
Whitespace (空格 ) 
preprocessing best practices in IR (IR 预 处 理 最 
FE SE RED. 371 
in word separation 〈 词 划分 )，369 
Wikipedia (维基 百科 ) 
answer scores in QA and (QA 回答 评分 ) 452 
for automatic word sense disambiguation (用 于 自 
动词 义 消 歧 ), 115-116 
crosslingual question answering and ( 跨 语 言 问 
2), 455 
as example of explicit semantic analysis (作为 显 
式 语义 分 析 例 子 )，382 
predominance of English in (英语 是 一 主导 语 
T. 438 
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